UD Macedonian MTB
Language: Macedonian (code: mk
)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.13 release.
The following people have contributed to making this treebank part of UD: Vladimir Cvetkoski.
Repository: UD_Macedonian-MTB
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: grammar-examples
Questions, comments? General annotation questions (either Macedonian-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [cvetkoski (æt) flf • ukim • edu • mk]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | annotated manually |
UPOS | annotated manually, natively in UD style |
XPOS | not available |
Features | annotated manually, natively in UD style |
Relations | annotated manually, natively in UD style |
Description
The Macedonian-MTB treebank is a collection of annotated sentences taken from the Macedonian version of the Cairo CICLing Corpus and from the university textbook in syntax “Contemporary Macedonian Language 4” by Simov Sazdov.
The Macedonian-MTB treebank is a collection of annotated sentences taken from the Macedonian version of the Cairo CICLing Corpus and from the university textbook in syntax “Contemporary Macedonian Language 4” by Simov Sazdov. Under the CC Attribution-NonCommercial 4.0 International License. The treebank consists mainly of everyday, literary and a few non-fiction sentences texts.
-
A description of the treebank and its origin (creation method, data sources, etc.) In its current selection, apart from the sentences taken from the the Cairo CICLing Corpus, the treebank consists of representative sentences from Simov Sazdov’s syntax textbook “Contemporary Macedonian Language 4” (Sazdov, 2012). The sentences were manually typed after obtaining the permission from Mr. Sazdov to use them for annotation.
-
A description of how the data was split into training, development and test sets The data is still too small to be split into training, development and test sets.
- If there are multiple genres/domains, can they be told apart by sentence ids? Does the treebank consist of complete documents, or just randomly shuffled sentences?
- So far, the sentences are randomly selected sentences from (Sazdov 2012).
-
Acknowledgments and references that should be cited when using the treebank
- A changelog section for treebanks that will be released for the second (or subsequent) time.
…
Acknowledgments
The sentences were manually annotated by Vladimir Cvetkoski, Mila Dimishkovska, Renata Jovanovska and Bojana Nafidova. Final revision and validation by Vladimir Cvetkoski. Also, for CONLL-U validation, http://spyysalo.github.io/conllu.js/ was used.
References
Саздов, С. (2012). Современ македонски јазик 4 (2. изд., p. 84 стр.). Табернакул. Sazdov, S. (2012). Contemporary Macedonian Language (2nd ed. p. 84). Tabernakul.
Statistics of UD Macedonian MTB
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB
Features
Aspect – Case – Definite – Degree – Gender – Gender[psor] – Mood – Number – Number[psor] – NumType – Person – Polarity – Poss – PronType – Reflex – Tense – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advmod – amod – appos – aux – aux:pass – case – cc – ccomp – conj – cop – csubj – det – discourse – expl – expl:pv – fixed – flat – iobj – list – mark – nmod – nmod:poss – nsubj – nsubj:pass – nummod – obj – obl – orphan – parataxis – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 155 sentences and 1360 tokens.
- This corpus contains 217 tokens (16%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 1 types of words that contain both letters and punctuation. Examples: вле-
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB
- This corpus does not use the following tags: SYM, X
- This corpus contains 6 word types tagged as particles (PART): да, дека, ли, не, нека, ниту
- This corpus contains 40 lemmas tagged as pronouns (PRON): ви, ги, го, им, каде, каков, кој, којшто, ме, мене, ми, му, нè, нас, него, негов, неколку, нему, нешто, ни, нив, ние, ништо, нѐ, сè, се, си, сиот, сите, сѐ, таа, те, ти, тие, тоа, тој, што, ја, јас, ѝ
- This corpus contains 13 lemmas tagged as determiners (DET): еден, каков, мој, негов, некој, нејзин, ова, она, свој, такво, твој, тие, тоа
- Out of the above, 4 lemmas occurred sometimes as PRON and sometimes as DET: каков, негов, тие, тоа
- This corpus contains 5 lemmas tagged as auxiliaries (AUX): би, биде, нема, сум, ќе
- Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: нема
- There are 2 (de)verbal forms:
- Fin
- AUX: е, беше, ќе, бев, биде, сте, Бевме, Сум, би, бидат
- VERB: дојде, облеков, студеше, сакам, јави, Мислам, дојдеш, воодушеви, гледав, дојди
- Part
- ADJ: одбрани, случено
- AUX: бил
- VERB: одземен, виделе, возбуден, гледал, испорачано, казнет, можел, напишал, оставил, прочитана
Nominal Features
- Fem
- ADJ: голема, нова, учебната, добра, мала, мила, минатата, првата, убава
- DET: Оваа, една, некоја, нејзиниот
- NOUN: јакна, година, авантури, бронза, книгата, колата, пари, снимка, собата, торта
- NUM: една
- PRON: ја, Таа, сите, ѝ
- PROPN: Мери, Марија, Џејн, Браун, Франција
- VERB: јакна, прочитана
- VERB-Part: прочитана
- Masc
- ADJ: утрешниот, вознемирен, главниот, дрзок, зелениот, кинески, минатиот, незадоволен, позабавен, познат
- AUX-Part: бил
- DET: мојот, каков, неговиот, својот, твојот
- NOUN: Натпреварот, крајот, автомобил, дена, испитот, компјутерот, облаците, професорот, син, сладолед
- NUM: два
- PRON: го, му, Тој, кој, Неговата, каков, којшто, него, нему, јас
- PROPN: Петар, Јован, Марко, Бетовен, Вардар, Лудвиг, Париз, Сем, Смит, Тинекс
- VERB-Part: одземен, возбуден, гледал, казнет, можел, напишал, оставил, совладан
- Neut
- ADJ: добро, корисно, одлично, прекрасно, светлото, слободно, случено
- ADJ-Part: случено
- DET: она, Ова, такво, тоа
- NOUN: кино, Детето, дете, злато, место, писмо, Луѓето, Сонцето, време, времето
- PRON: тоа, го, којшто, Што, нешто, ништо
- PROPN: Игуацу
- VERB-Part: испорачано, случено
- Count
- NOUN: дена, авиона, филма
- Plur
- ADJ: глупави, долги, играни, нови, одбрани, последниве, презадоволни
- ADJ-Part: одбрани
- AUX-Fin: сте, Бевме, бидат, се, сме
- DET: моите, Тие, некои
- NOUN: авантури, облаците, пари, Колоните, автомобилите, богаташите, години, деца, децата, кучиња
- NUM: два, 15, неколку, пет, три
- PRON: тие, ги, ние, ви, нѐ, Им, Сѐ, нè, нас, неколку
- VERB-Fin: дојдат, забавуваат, играа, работиме, Влеговме, Гледавме, Живееме, Заработуваме, Одеа, Продадоа
- VERB-Part: виделе
- Sing
- ADJ: голема, нова, утрешниот, учебната, болен, вознемирен, главниот, добра, добро, дрзок
- ADJ-Part: случено
- AUX-Fin: е, беше, ќе, бев, биде, Сум, би, нема, немаше
- AUX-Part: бил
- DET: мојот, она, Ова, Оваа, една, каков, неговиот, некоја, нејзиниот, својот
- NOUN: јакна, година, Натпреварот, кино, крајот, Детето, Сонцето, автомобил, бронза, дете
- NUM: една
- PRON: го, ми, ја, ме, му, Тој, ти, тоа, Таа, кој
- PROPN: Петар, Мери, Јован, Марија, Марко, Џејн, Бетовен, Браун, Вардар, Игуацу
- VERB: дојде, облеков, сакам, јави, Мислам, дојдеш, студеше, воодушеви, гледав, дојди
- VERB-Fin: дојде, облеков, сакам, јави, Мислам, дојдеш, студеше, воодушеви, гледав, дојди
- VERB-Part: одземен, возбуден, гледал, испорачано, казнет, можел, напишал, оставил, прочитана, случено
- Acc
- PRON: го, се, ја, ме, ги, нѐ, Сѐ, Што, мене, нè
- Dat
- PRON: ми, му, ти, ви, си, Им, ме, нему, ни, ѝ
- Nom
- DET: она, Оваа, некои, тоа
- PRON: тие, Тој, ние, тоа, Таа, кој, којшто, Јас, нешто
- Def
- ADJ: утрешниот, учебната, главниот, минатата, минатиот, нова, последниве, првата, прекрасно, расипаниот
- DET: моите, мојот, нејзиниот, својот, твојот
- NOUN: Натпреварот, Детето, Рим, Сонцето, книгата, колата, облаците, собата, филмот, Девојката
- PRON: го, тие, Ние, Неговата, Таа, Тој, којшто, сите, ја
- Ind
- ADJ: голема, болен, вознемирен, глупави, добра, добро, долги, дрзок, зелениот, играни
- ADJ-Part: одбрани, случено
- DET: една, некоја
- NOUN: јакна, година, кино, авантури, автомобил, бронза, дете, компјутерот, крајот, место
- NUM: два, 15, една, неколку, пет, три
- PRON: Сѐ, неколку, нешто, ништо, јас
- PROPN: Јован, Марија, Марко, Бетовен, Вардар, Лудвиг, Петар, Тинекс
- VERB: одземен, јакна, возбуден, гледал, испорачано, казнет, можел, оставил, прочитана, совладан
- VERB-Part: одземен, возбуден, гледал, испорачано, казнет, можел, оставил, прочитана, совладан
Degree and Polarity
- Abs
- ADJ: презадоволни
- Cmp
- ADJ: позабавен, расипаниот
- Pos
- ADJ: голема, нова, утрешниот, учебната, болен, вознемирен, главниот, глупави, добра, добро
- ADV: вчера, многу, овде, Јасно, бесплатно, дента, добро, дома, единствено, пак
- Sup
- ADV: пребрзо
- Neg
- PART: не, ниту
Verbal Features
- Imp
- AUX-Fin: е, беше, бев, сте, Сум, би, бидат, нема, немаше, се
- AUX-Part: бил
- VERB-Fin: студеше, сакам, Мислам, гледав, може, врне, доаѓа, забавуваат, заспива, играа
- VERB-Part: гледал, можел
- Perf
- ADJ-Part: одбрани, случено
- AUX-Fin: биде, Бевме, беше
- VERB-Fin: дојде, облеков, јави, воодушеви, дојдеш, купи, направи, Влегов, даде, дојди
- VERB-Part: одземен, виделе, возбуден, испорачано, казнет, напишал, оставил, прочитана, случено, совладан
- Cnd
- AUX-Fin: би
- VERB-Fin: студеше
- Imp
- VERB-Fin: дојди, направи, јави, купи, Оди, Подготви, Сврти, отвори, поништив, посматрав
- Ind
- AUX-Fin: е, беше, ќе, бев, биде, сте, Бевме, Сум, бидат, нема
- AUX-Part: бил
- VERB-Fin: дојде, облеков, сакам, Мислам, дојдеш, студеше, воодушеви, гледав, може, Влегов
- VERB-Part: виделе, напишал
- Int
- VERB-Fin: Знаеш
- Fut
- VERB-Fin: договориме, дојдат, купам, паднеш, положиш
- Imp
- AUX-Fin: беше, немаше
- VERB-Fin: студеше, Гледавме, Одеа, Требаше, Учев, криеше, мачеше, можеа, можев, навивавме
- Past
- AUX-Fin: беше, Бев, Бевме, би
- VERB-Fin: облеков, воодушеви, дојде, Влегов, гледав, даде, направи, освои, отидов, рече
- VERB-Part: виделе, гледал, можел, напишал, оставил
- Pres
- AUX-Fin: е, ќе, биде, бев, сте, Сум, бидат, нема, се, сме
- VERB-Fin: дојде, сакам, Мислам, дојдеш, дојди, може, јави, врне, доаѓа, забавуваат
- Act
- AUX-Fin: е, беше, бев, биде, сте, Бевме, Сум, бидат, нема, немаше
- AUX-Part: бил
- VERB-Fin: дојде, облеков, студеше, сакам, Мислам, дојдеш, јави, воодушеви, гледав, дојди
- VERB-Part: виделе, гледал, можел, напишал, оставил, случено
- Pass
- ADJ-Part: одбрани, случено
- VERB-Part: одземен, возбуден, испорачано, казнет, прочитана, совладан
Pronouns, Determiners, Quantifiers
- Dem
- ADV: Таму, така, тогаш, туку, толкава, толку
- DET: она, Ова, Оваа, Тие, тоа
- PRON: тоа
- Ind
- DET: една, некои, некоја
- PRON: неколку, нешто
- Int
- ADV: кога, како, каде, колкава, колку
- DET: каков, такво
- PRON: кој, Што
- Neg
- ADV: никогаш
- PRON: ништо
- Prs
- DET: моите, мојот, неговиот, нејзиниот, својот, твојот
- PRON: се, го, ми, ја, ме, му, тие, Тој, ти, ги
- Rel
- ADV: како
- PRON: којшто, Кој, каков
- Tot
- PRON: Сѐ, сите
- Card
- ADV: колкава, колку, толкава, толку
- NUM: два, 15, една, неколку, пет, три
- Yes
- DET: моите, мојот, неговиот, нејзиниот, својот, твојот
- PRON: Неговата, ми, му
- Yes
- DET: својот
- PRON: се, си, сè
- 1
- AUX-Fin: бев, Бевме, Сум, е, сме
- DET: моите, мојот
- PRON: ми, ме, ние, нѐ, Јас, мене, нè, нас, ни
- VERB-Fin: облеков, сакам, Мислам, гледав, Влегов, воодушеви, купам, немам, одам, положив
- 2
- AUX-Fin: сте
- DET: твојот
- PRON: ти, ви, те
- VERB-Fin: дојдеш, дојди, јави, купи, можеш, сакаш, Знаеш, Оди, Сврти, гледаш
- VERB-Part: виделе
- 3
- AUX-Fin: е, беше, биде, ќе, би, бидат, нема, немаше, се
- DET: неговиот, нејзиниот
- PRON: го, ја, му, тие, Тој, ги, Таа, Им, Неговата, којшто
- VERB-Fin: дојде, студеше, може, врне, даде, доаѓа, дојдат, забавуваат, заспива, играа
- VERB-Part: напишал, случено
- Masc
- DET: неговиот
- Sing
- DET: неговиот
Other Features
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: сум.
- This corpus uses 4 lemmas as auxiliaries (aux). Examples: ќе, нема, сум, би.
- This corpus uses 2 lemmas as passive auxiliaries (aux:pass). Examples: биде, сум.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN (25)
- VERB-Fin--PRON (1)
- VERB-Fin--PRON-Nom (25)
- VERB-Part--NOUN (1)
- obj
- VERB-Fin--NOUN (56)
- VERB-Fin--NOUN-ADP(зад) (1)
- VERB-Fin--NOUN-ADP(на) (1)
- VERB-Fin--NOUN-ADP(по) (1)
- VERB-Fin--PRON (4)
- VERB-Fin--PRON-Acc (29)
- VERB-Fin--PRON-Nom (1)
- VERB-Part--NOUN (4)
- VERB-Part--PRON-Acc (1)
- iobj
- VERB-Fin--PRON-ADP(на) (1)
- VERB-Fin--PRON-Dat (19)
- VERB-Part--PRON-Dat (3)
Reflexive Verbs
- This corpus contains 9 lemmas that occur at least once with an expl:pv child. Examples: види се, врати се, забавува се, зафати се, купи си, посака се, разбира се, јави ми се, јави се
Verbs with Reflexive Core Objects
- This corpus contains 1 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: даде сè
Relations Overview
- This corpus uses 5 relation subtypes: acl:relcl, aux:pass, expl:pv, nmod:poss, nsubj:pass
- The following 5 relation types are not used in this corpus at all: dislocated, clf, compound, goeswith, dep