UD Komi Permyak UH
Language: Komi Permyak (code: koi
)
Family: Uralic
This treebank has been part of Universal Dependencies since the UD v2.5 release.
The following people have contributed to making this treebank part of UD: Larisa Ponomareva, Niko Partanen, Jack Rueter, Francis Tyers.
Repository: UD_Komi_Permyak-UH
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: fiction
Questions, comments? General annotation questions (either Komi Permyak-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [rueter • jack (æt) gmail • com]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | annotated manually in non-UD style, automatically converted to UD |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | annotated manually |
Features | annotated manually in non-UD style, automatically converted to UD |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
This is a Komi-Permyak literary language treebank consisting of original and translated texts.
Initial Komi-Permyak Universal Dependency type annotation.
This includes 30 sentences originally presented as 20 at http://ilazki.thinkgeek.co.uk/brat/#/uralic/fin with UD v1 dependencies. The additional sentences stem from variation in expression within the Komi-Permyak language, and the text_id with additional letters indicates this variation. Additionally other sentences have been added in the later releases.
The translation were made by Larisa Ponomareva based on the Finnish, Russian and Komi-Zyrian texts:
- http://ilazki.thinkgeek.co.uk/brat/#/uralic/fin
- http://ilazki.thinkgeek.co.uk/brat/#/uralic/rus
- http://ilazki.thinkgeek.co.uk/brat/#/uralic/kpv
Acknowledgments
UH = University of Helsinki Development repository: https://github.com/rueter/erme-ud-komi-permyak Annotation work is simultaneous to finite-state transducer development by Larisa Ponomareva, Niko Partanen and Jack Rueter in the GiellaLT infrastucture, which also works with Constraint Grammar disambiguation of the morphological analysis.
Work connected to this treebank is described in following publication. If you use this treebank in your work, please cite:
- Rueter, Jack; Partanen, Niko and Ponomareva, Larisa 2020: On the questions in developing computational infrastructure for Komi-Permyak. Proceedings of the Sixth International Workshop on Computational Linguistics of Uralic Languages (pp. 15-25).
References
- Batalova, P.M. (Баталова. Р. М.) Коми-пермяцкая диалектология. М., Изд-во “Наука”, 1975. 252 с.
- Fadejev T. Sjemjalӧn sudjba. 1965 (Фадеев Т. П.) Семьялӧн судьба (висьт) // Иньва. Литературно-художественный сборник. Кудымкар, 1965.
- Fadejev T. Pochkaez osjsjӧny, 1970 (Фадеев Т. П.) Почкаэз оссьӧны (висьт) // Почкаэз оссьӧны: рассказзэз. Кудымкар: Пермское кн. изд-во, Коми-Перм. отделение, 1970
- Fadejev T. Ybshar, 1989 (Фадеев Т. П.) Ыбшар (Роман куим частьын). Кудымкар: Пермское кн. изд-во, Коми-Перм. отделение, 1989.
- Fadejev T. Miritchӧm, 1990 (‒ Фадеев Т. П.) Миритчӧм. Ӧтік акта трагедия // Коми-пермяцкӧӥ национальнӧй драматургия. Ӧтік акта пьесаэз. Кудымкар, 1990
- Fadejev T. Goradzulj, 1993 (Фадеев Т. П.) Горадзуль. Сизим картинаа драма // Коми-пермяцкӧй национальнӧӥ драматургия. Уна акта пьесаэз. Кудымкар, 1993
- Fedosejev S. Vilj gortyn, 1985 (Федосеев С. А.) Виль гортын (повесть) // Пармаын югыт: бӧрйӧм коми-пермяцкӧй проза. Кудымкар: Пермскӧӥ книжнӧй изд-во, Коми-Пермяцкӧй отделеннё, 1985.
- Kanjukov V. Larec, 1994 (‒ Канюков В. И.) Ларец (висьт) // Чарӧтӧм пу. Кудымкар, 1994.
- Lytkin V. I. (chief ed.) 1961 Коми-пермяцкий язык, введение, фонетика, лексика и морфология.
- Minjin I. A. (Минин И. А.) 1968. Panyt yjis tӧlisj(Паныт уйис тӧлісь) (повесть). Кудымкар, 1968.
- Minjin I. A. (Минин И. А.) 1988. Kydz shynjnjalӧ apostol (Кыдз шыннялӧ апостол) (повесть) // Оча морос: повесттез, рассказзэз, пьеса. Кудымкар: Пермское кн. изд-во, Коми-Перм. отделение, 1988.
- Minjin I. A. (Минин И. А.) 1964. Ojsja cvettez (Ойся цветтэз) (висьт) // Оча морос: повесттез, рассказзэз, пьеса. Кудымкар: Пермское кн. изд-во, Коми-Перм. отделение, 1964. (http://komikyv.org/koi/node/31063)
- Ponomareva, L.G. (Пономарева. Л. Г.) Речь северных коми-пермяков. М.: Языки Народов Мира, 2016. 514 с.
- Shadrin I. A. (Шадрин И. А.) 1959. Djoma (Дёма) (висьт) // Тулысся ваэз. Литературно-художественный сборник. Кудымкар, 1959.
- Nekrasova G. A. (Г. А. Некрасова), Sergeeva E. N. (Е. Н. Сергеева) 2018. МАРКИРОВАНИЕ АКТАНТОВ ДВУХМЕСТНЫХ ПРЕДИКАТОВ В КУДЫМКАРСКО-ИНЬВЕНСКОМ ДИАЛЕКТЕ КОМИ-ПЕРМЯЦКОГО ЯЗЫКА. Валентностные классы двухместных предикатов в разноструктурных языках [Valency classes of two-place predicates]. Отв. ред. С. С. Сай: Сборник статей. с. 354–375. СПб.: ИЛИ РАН, 2018. 624 с. ИЯЛИ КНЦ УрО РАН, Сыктывкар, Колледж метрополитена, Санкт-Петербург.
Statistics of UD Komi Permyak UH
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB
Features
AdpType – AdvType – Animacy – Case – Connegative – Definite – Degree – Derivation – Evident – Mood – NameType – NounType – Number – Number[psor] – Number[subj] – NumType – Person – Person[psor] – Polarity – PronType – Reflex – Tense – Variant – VerbForm – VerbType
Relations
acl – acl:relcl – advcl – advcl:lcl – advcl:mcl – advcl:tcl – advmod – advmod:deg – advmod:lmod – advmod:mmod – advmod:tmod – amod – appos – aux – aux:cnd – aux:neg – aux:pot – case – cc – cc:preconj – ccomp – compound:prt – conj – cop – csubj – det – discourse – dislocated – expl – fixed – flat:name – list – mark – nmod – nmod:lmod – nmod:poss – nsubj – nsubj:cop – nummod – obj – obl – obl:lmod – obl:tmod – orphan – parataxis – punct – root – vocative – xcomp – xcomp:ds
Tokenization and Word Segmentation
- This corpus contains 128 sentences and 1081 tokens.
- This corpus contains 224 tokens (21%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 2 types of words that contain both letters and punctuation. Examples: А-а, кыкисьӧн-куимисьӧн
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB
- This corpus does not use the following tags: SYM, X
- This corpus contains 5 word types tagged as particles (PART): а, жӧ, и, нӧ, я
- This corpus contains 23 lemmas tagged as pronouns (PRON): ас, ачым, ачыс, ачыт, быд, кин, кинкӧ, кыкнанныс, кытшӧм, кытӧн, кӧда, ме, мый, мыйкӧ, мӧд, сыв, сія, тэ, эна, этö, эта, этаын, ӧтамӧд
- This corpus contains 6 lemmas tagged as determiners (DET): ас, быд, кык, кынымкӧ, мукӧд, эта
- Out of the above, 3 lemmas occurred sometimes as PRON and sometimes as DET: ас, быд, эта
- This corpus contains 10 lemmas tagged as auxiliaries (AUX): абу, бы, вермыны, вӧвны, ковны, не, овлыны, овны, оз, позьны
- Out of the above, 4 lemmas occurred sometimes as AUX and sometimes as VERB: вермыны, ковны, овны, оз
- There are 3 (de)verbal forms:
- Conv
- VERB: жалейттӧг, жмитікӧ, куриттӧг, лӧсьӧтікӧ, сайӧвтӧмӧн, ютӧг
- Inf
- AUX: овны
- VERB: вӧтны, керны, адззавлыны, бӧрйыны, видзчисьны, воштісьны, куритны, кутчыны, локны, лӧсьӧтны
- Part
- VERB: бырӧм, гардчӧмкодь, дорӧм, дрӧжитана, киссьӧм, пырӧм, пӧліньтчӧм
Nominal Features
- Anim
- NOUN: мöс, мöсöс, Мортлӧ, Челядьыс, айтöг, айыс, вонӧ, кага, мöссö, морт
- Hum
- NOUN: Петя, Машакöт, соседыс, oтиp, Маша, Машаöс, Машалö
- PROPN: Петялӧн, Мери, Питер, Сэм, Браунӧс, Ворошилов, Джейн, Петрасянь, Смитӧс
- Inan
- ADJ: сісь
- NOUN: керку, Бабö, Деньга, Лöсялöм, бадь, бедьсö, вешьян, видзоккез, кадӧ, касьтылӧм
- Nhum
- PRON: мый
- Plur
- ADJ: гажаӧсь, кокнитӧсь
- AUX: озӧ, эг, эгö, эд
- NOUN: Томмес, Тшаккесö, аннэзӧ, видзоккез, воннэз, гряддэс, думаэз, звездаэз, квартираэсӧ, ключчез
- NUM: нёляӧсь, кыкӧнӧсь
- PRON: нія, эна, Ми, кыкнаннысӧ, ны, ті
- VERB: вайисӧ, вуджим, вуджӧны, иньдӧтчисӧ, кoтӧpтіcӧ, кокаласӧ, кутчисисӧ, кушамисӧ, лэбтіcиcӧ, мунісӧ
- Sing
- ADJ: Куимӧдз, бур, веськытлань, витӧдз, коричневӧй, сэтшöм, сісь, том, ыджыт
- ADP: вылын, дынӧ, бöрсянь, бердас, бердӧ, бокӧ, бӧрсянь, вылö, вылӧ, дорас
- ADV: ӧтикӧ
- AUX: оз, эз, вӧлі, эг, верман, коліс, овлӧ, ог, он, эн
- DET: Быд, Мукӧд, ас
- NOUN: Петя, айӧ, йӧрсӧ, керку, морт, Машакöт, айся, гортас, дорас, луныс
- NUM: кыка, öтiк, кык
- PRON: сія, ме, тэ, менам, сійӧ, тэнат, Сiя, меным, сылӧ, сылӧн
- PROPN: Петялӧн, Мери, Питер, Парижын, Сэм, Браунӧс, Ворошилов, Джейн, Дёма, Игаузу
- VERB: зэрӧ, быдмис, локтін, босьтіс, вашöтö, велалас, высьтіс, гижис, котӧртіс, краситӧм
- VERB-Part: бырӧм, гардчӧмкодь, дорӧм, киссьӧм, пырӧм, пӧліньтчӧм
- Abe
- NOUN: Льӧмваыстӧг, айтöг, керкутöг, крышатӧм
- Acc
- NOUN: йӧрсӧ, мöсöс, ӧшынсӧ, Абызсö, Машаöс, Тшаккесö, бедьсö, дугасö, инькасӧ, квартираэсӧ
- PRON: сійӧ, кыкнаннысӧ, менӧ, этӧ
- PROPN: Браунӧс, Смитӧс
- Apr
- ADJ: веськытлань
- PRON: мелань
- Cmp
- NOUN: айся, айытся
- Com
- NOUN: Машакöт
- PRON: Аскöттят, аскöттям, аскöттяс, мекӧт
- Dat
- NOUN: Машалö, Мортлӧ, айкаыслӧ, семьялӧ, ёртыслӧ
- PRON: меным, сылӧ, ӧтамӧдлӧ
- Egr
- ADP: бöрсянь, бӧрсянь
- NOUN: лaдopcянь, ладорсяняс
- PROPN: Петрасянь
- Ela
- ADV: дасöтiсь
- NOUN: васис, гидсис, дорись, жырись, коласісь, местасис
- Gen
- PRON: менам, тэнат, сылӧн, Сылöн
- PROPN: Петялӧн, Франциялӧн
- Ill
- ADP: дынӧ, бердас, бердӧ, бокӧ, вылö, вылӧ, дорас, кежас, кузяс, одзӧ
- ADV: кытчӧ, ӧтикӧ
- NOUN: гортас, Бабö, быдторö, дорас, дынӧ, кадӧ, ладорӧ, лунас, лунӧ, муӧ
- VERB-Conv: жмитікӧ, лӧсьӧтікӧ
- Ine
- ADP: вылын, бокын, коласын
- ADV: кытӧн, пыдын
- NOUN: юркарын, Арас, вылын, деревняын, дорас, дорын, керкуын, небоын, сарайын, увтын
- PRON: кытӧн, этаын
- PROPN: Парижын
- Ins
- NOUN: ойнас, Тулыснас, арнас, голосӧн, кинас, мознас, посудаöн, пӧввезӧн
- PRON: сылöн
- Nom
- ADJ: Куимӧдз, бур, витӧдз, коричневӧй, сэтшöм, сісь, том, ыджыт
- DET: Быд, Мукӧд, ас
- NOUN: Петя, айӧ, керку, морт, луныс, мöс, машина, олісьыс, охота, соседыс
- NUM: öтiк, кык
- PRON: сія, ме, тэ, мый, Сiя, ачыт, мыйкӧ, нія, эна, Ми
- PROPN: Мери, Питер, Сэм, Ворошилов, Джейн, Дёма, Игаузу, Лида, Митя, Прокоп
- VERB-Part: бырӧм, гардчӧмкодь, дорӧм, киссьӧм, пырӧм, пӧліньтчӧм
- Prl
- NOUN: местаэзӧт
- Prp
- NOUN: тошока, уссэза, ӧшына
- Ind
- ADV: мылякӧ
Degree and Polarity
- Cmp
- ADJ: буржык
- ADV: дыржык
- Dim
- NOUN: видзоккез, керкуокыс, пельӧсокӧ, чериок
- Neg
- ADV: нем, ни
- AUX: абу, эз, оз, эг, не, озӧ, абуöсь, ог, он, эгö
- VERB: эд
- Nomin
- NOUN: крышатӧм
- Vclause
- NOUN: Льӧмваыстӧг, айтöг, керкутöг
Verbal Features
- Imp
- VERB: осьт, кольччы
- Ind
- AUX: оз, эз, эг, вӧлі, озӧ, верман, коліс, овлӧ, ог, он
- VERB: зэрӧ, быдмис, локтін, босьтіс, вашöтö, велалас, высьтіс, гижис, котӧртіс, краситӧм
- Fut
- VERB: велалас, петас, кокаласӧ, локтас, сетас, шедас
- Past
- AUX: эз, эг, вӧлі, коліс, эгö, эд, эн
- VERB: быдмис, локтін, босьтіс, высьтіс, гижис, котӧртіс, краситӧм, краситӧма, пондыліс, тшӧктіс
- VERB-Part: бырӧм, гардчӧмкодь, дорӧм, киссьӧм, пырӧм, пӧліньтчӧм
- Pres
- AUX: оз, озӧ, верман, овлӧ, ог, он
- NUM: кыкӧнӧсь
- VERB: зэрӧ, вашöтö, тыдалӧ, Висьтала, Кылӧ, Мунан, адззö, адзза, арталö, брезгуйтö
- Nfh
- VERB: краситӧм, краситӧма, велöтчылöма, вӧвдӧм, чужӧма, шедöмась, ылӧстӧма
Pronouns, Determiners, Quantifiers
- Dem
- ADJ: сэтшӧм, сэтшöм
- PRON: эна, этӧ, Эта, этаын
- Ind
- PRON: мыйкӧ, кинкӧ
- Int
- ADV: Кыдз, кытчӧ, кытӧн
- PRON: Мый, Кытшӧм, кин, кытӧн
- Prs
- PRON: сія, ме, тэ, менам, сійӧ, тэнат, Сiя, меным, сылӧ, сылӧн
- Rel
- ADV: кыдз, кытӧн
- PRON: кӧда, мый
- Tot
- DET: Кыкнан, Быд
- PRON: быд, кыкнаннысӧ
- Card
- ADV: ӧтикӧ
- NUM: кык, куим, öтiк
- Dist
- NUM: Кыкӧн, кыкӧнӧсь
- MultDist
- ADV: кыкисьӧн, кыкисьӧн-куимисьӧн
- Ord
- ADJ: Куимӧдз, витӧдз
- OrdMult
- ADV: дасöтiсь
- Sets
- PRON: кыкнаннысӧ
- Yes
- PRON: ас, ачыт, Аскöттят, аскöттям, аскöттяс
- 1
- AUX: эг, вӧлі, ог, эгö
- PRON: ме, менам, меным, Ми, аскöттям, мекӧт, мелань, менӧ
- VERB: Висьтала, Пукси, адзза, вежӧрті, ветлӧті, видзӧті, вуграся, вуджим, дугда, кошши
- 2
- AUX: верман, он, эд, эн
- PRON: тэ, тэнат, ачыт, Аскöттят, ті
- VERB: локтін, осьт, Мунан, веритан, видзӧтан, думайтан, кольччы, узян, эд
- 3
- AUX: эз, оз, озӧ, Вӧлі, коліс, овлӧ
- NUM: кыкӧнӧсь
- PRON: сія, сійӧ, Сiя, сылӧ, сылӧн, нія, Сы, Сылöн, аскöттяс, кыкнаннысӧ
- VERB: зэрӧ, быдмис, босьтіс, вашöтö, велалас, высьтіс, гижис, котӧртіс, краситӧм, краситӧма
- Sing
- ADP: бердас, дорас, кежас, кузяс
- NOUN: айӧ, йӧрсӧ, гортас, дорас, луныс, ойнас, олісьыс, соседыс, Абызсö, Арас
- PRON: Мӧдыс
Other Features
- AdpType
- Post
- ADP: вылын, гöгöр, дынӧ, бöрсянь, бердас, бердӧ, бокӧ, бӧрсянь, вылö, вылӧ
- Post
- AdvType
- Deg
- ADV: сё, дзик
- Loc
- ADP: дынӧ, бöрсянь, бердас, бердӧ, бокын, бокӧ, бӧрсянь, вылö, вылын, вылӧ
- ADV: кытчӧ, кытӧн
- Man
- ADV: кыдз
- Deg
- Connegative
- Yes
- AUX: вермы, вӧв, позь
- VERB: адззыв, аркмы, артав, артась, вöрзьöт, вежӧртӧ, вермы, гленитчы, ков, лок
- Yes
- Derivation
- Ana
- VERB-Part: дрӧжитана
- CompMod
- VERB-Part: гардчӧмкодь
- Ik
- VERB-Conv: жмитікӧ, лӧсьӧтікӧ
- Omon
- VERB-Conv: сайӧвтӧмӧн
- VAbe
- VERB-Conv: жалейттӧг, куриттӧг, ютӧг
- Ana
- NameType
- Geo
- PROPN: Парижын, Игаузу, Франция, Франциялӧн
- Giv
- NOUN: Сеня
- PROPN: Петялӧн, Мери, Питер, Сэм, Тулика, Джейн, Дёма, Лида, Митя, Петрасянь
- Sur
- PROPN: Браунӧс, Ворошилов, Смитӧс
- Geo
- NounType
- Relat
- NOUN: вылын, дорись, сайӧ, ылын
- Relat
- Number[subj]
- Plur
- ADJ: сьöрьяöсь
- AUX: абуöсь
- Plur
- Person[psor]
- 1
- NOUN: айӧ, аннэзӧ, вонӧ, сайӧ, туйӧ, увтӧ
- 2
- NOUN: айыт, айытся
- VERB-Inf: боньгыныт
- 3
- ADP: бердас, дорас, кежас, кузяс
- NOUN: йӧрсӧ, гортас, дорас, луныс, ойнас, олісьыс, соседыс, Абызсö, Арас, Кагаыс
- PRON: Мӧдыс
- 1
- VerbType
- Aux
- AUX: эз
- Aux
Syntax
Auxiliary Verbs and Copula
- This corpus uses 3 lemmas as copulas (cop). Examples: вӧвны, овлыны, овны.
- This corpus uses 3 lemmas as auxiliaries (aux). Examples: оз, вермыны, ковны.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN-Ill (1)
- VERB--NOUN-Nom (51)
- VERB--PRON-Nom (44)
- VERB-Inf--PRON-Nom (3)
- obj
- VERB--NOUN-Acc (21)
- VERB--NOUN-Nom (16)
- VERB--PRON-Acc (4)
- VERB--PRON-Nom (1)
- VERB-Conv--NOUN-Acc (3)
- VERB-Conv--NOUN-Nom (1)
- VERB-Inf--NOUN-Acc (1)
- VERB-Inf--NOUN-Nom (1)
- VERB-Inf--PRON-Acc (3)
Relations Overview
- This corpus uses 20 relation subtypes: acl:relcl, advcl:lcl, advcl:mcl, advcl:tcl, advmod:deg, advmod:lmod, advmod:mmod, advmod:tmod, aux:cnd, aux:neg, aux:pot, cc:preconj, compound:prt, flat:name, nmod:lmod, nmod:poss, nsubj:cop, obl:lmod, obl:tmod, xcomp:ds
- The following 2 main types are not used alone, they are always subtyped: compound, flat
- The following 5 relation types are not used in this corpus at all: iobj, clf, goeswith, reparandum, dep