UD Tatar NMCTT
Language: Tatar (code: tt
)
Family: Turkic
This treebank has been part of Universal Dependencies since the UD v2.9 release.
The following people have contributed to making this treebank part of UD: Chihiro Taguchi.
Repository: UD_Tatar-NMCTT
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: nonfiction, news
Questions, comments? General annotation questions (either Tatar-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [c • taguchi (æt) sms • ed • ac • uk]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | annotated manually |
UPOS | annotated manually, natively in UD style |
XPOS | not available |
Features | annotated manually, natively in UD style |
Relations | annotated manually, natively in UD style |
Description
UD Tatar-NMCTT is a manually annotated corpus of the Tatar language based on the text from Tatar-Inform (tatar-inform.tatar), an online news website.
UD Tatar-NMCTT is a corpus of the Tatar language, manually annotated by Chihiro Taguchi under the project “NAIST Multilingual Corpus” at Nara Institute of Science and Technology, Japan. The text is taken from the online news website Tatar-Inform. The articles contain a wide variety of genres, including politics, health, incidents, etc. Upon citing the text, it is recommended to show the source link of the article, given the Russian federal law stipulating that all mass medias citing an article have to show the link to the corresponding source article. The link is available as meta data in the corpus.
Acknowledgments
This contribution to UD were never possible without generous cooperation by Zilya Mubarakshina (Tatar-Inform). The building of this corpus is funded by CICP of Nara Institute of Science and Technology.
References
- Tatar-Inform. URL: https://www.tatar-inform.tatar/
Statistics of UD Tatar NMCTT
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – NOUN – NUM – PRON – PROPN – PUNCT – SCONJ – SYM – VERB
Features
Aspect – Case – Degree – Foreign – Mood – Number – Number[psor] – NumType – Person – Person[psor] – Polarity – PronType – Reflex – Tense – VerbForm – Voice
Relations
acl – advcl – advmod – advmod:emph – amod – appos – aux – case – cc – ccomp – compound – compound:lvc – conj – dep – det – discourse – fixed – flat – mark – nmod – nsubj – nummod – obj – obl – parataxis – punct – root – xcomp
Tokenization and Word Segmentation
- This corpus contains 148 sentences and 2280 tokens.
- This corpus contains 348 tokens (15%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 12 types of words that contain both letters and punctuation. Examples: Татар-информ, ир-атны, Covid-19, Covid-19дан, ПЦР-тест, Премьер-министры, Явым-төшем, телеграм-каналында, турыдан-туры, төньяк-көнбатыштан, чүп-чар, әйләнә-тирә
Morphology
Tags
- This corpus uses 14 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PRON, PROPN, PUNCT, SCONJ, SYM, VERB
- This corpus does not use the following tags: PART, INTJ, X
- This corpus contains 15 lemmas tagged as pronouns (PRON): Россия, алар, бар, барлык, бары, барысы, без, беркем, бу, моннан, сез, ул, шул, шуңа, үз
- This corpus contains 6 lemmas tagged as determiners (DET): бернинди, берничә, бу, ул, һәр, һәрбер
- Out of the above, 2 lemmas occurred sometimes as PRON and sometimes as DET: бу, ул
- This corpus contains 17 lemmas tagged as auxiliaries (AUX): ал, бар, башла, бетер, бир, бул, иде, икән, кал, кил, кирәк, мөмкин, тиеш, тор, түгел, чык, үт
- Out of the above, 10 lemmas occurred sometimes as AUX and sometimes as VERB: ал, бар, башла, бир, бул, кал, кил, тор, чык, үт
- There are 6 (de)verbal forms:
- Conv
- VERB: алып, булып, дип, итеп, тотып, этеп, аңлап, бара, билгеләп, булмаса
- Fin
- AUX: иде, тора, ала, алды, алмады, башладым, бирә, булмады, килдегез, килә
- VERB: диде, итә, итте, ителә, әйтте, ала, белдерде, искәртте, ителде, катнашты
- Inf
- VERB: булырга, итәргә, бирергә, кайтырга, кулланырга, укырга, эшләргә, яварга, ясарга, ясатырга
- NomAg
- VERB: итүче, алган, укытучыларны, шөгыльләнүче, яшәүчеләр, өйрәнүче, Язучылар, итүчеләр, керүчеләрнең, теләүчеләр
- Part
- AUX: алачак, торган, чыгарган, алганнар, калыр
- VERB: булган, булачак, ителгән, планлаштырылган, башланган, иткәнчә, итәчәк, караганда, төшәчәк, узачак
- Vnoun
- AUX: калу, алуы, бару, бетерү, чыгу
- VERB: саклау, Тикшерү, итү, Очрашуда, булуын, кую, көтелүе, ремонтлау, саклануның, җиңү
Nominal Features
- Plur
- ADJ: җәяүлеләр
- AUX-Fin: килдегез
- AUX-Part: алганнар
- NOUN: сүзләренчә, утлары, балалар, берләшмәләре, вәкилләре, көннәрендә, белгечләр, кешеләр, оешмалар, предприятиеләре
- PRON: безгә, Без, Безнең, алар, аларның, Сез, аларга, аларны, сезгә, сезнең
- VERB: тапшырдылар, укытучыларны, яшәүчеләр, Котлауларны, Язучылар, авырулар, алдылар, аңлаттылар, аңлаулары, дисәгез
- VERB-Conv: дисәгез
- VERB-Fin: тапшырдылар, алдылар, аңлаттылар, исбатладык, котлыйбыз, куйдылар, ниятлиләр, сорадык, сөйлиләр, табалар
- VERB-NomAg: укытучыларны, яшәүчеләр, Язучылар, итүчеләр, керүчеләрнең, теләүчеләр, тикшерүчеләр, эшләүчеләр, язучылары, яшәүчеләрдән
- VERB-Part: күргәннәре
- VERB-Vnoun: Котлауларны, авырулар, аңлаулары, исәпләүләр, итүләрен, сөйләшүләр, тикшерүләр, чикләүләр, чыгуларын
- Sing
- ADJ: соңгысы, төрлесен, якындагы, яше, яшьлек, яшьтәге
- AUX: калу, тора, ала, алмады, алуы, бару, башладым, бетерү, иде, идем
- AUX-Fin: тора, ала, алмады, башладым, килә, үтә
- AUX-Part: калыр
- AUX-Vnoun: калу, алуы, бару, бетерү, чыгу
- NOUN: хәбәр, татар, кеше, һава, Дәүләт, министры, мөселман, халык, шәһәр, вакцинация
- NUM: 12дә
- PRON: ул, аның, үз, Моннан, моңа, Аннан, Бу, Монда, Россия, Шуңа
- PROPN: Татарстан, Кама, Төмән, Марат, Татарстанның, Казан, Рамил, Татарстанда, Чиләбе, Әхмәтов
- VERB: диде, саклау, Тикшерү, итү, Очрашуда, белдерде, булмаса, булуын, искәртте, ителгән
- VERB-Conv: булмаса, карасаң
- VERB-Fin: диде, белдерде, искәртте, итте, әйтте, ала, алына, ассызыклый, ачыклый, бастым
- VERB-NomAg: укучы, укытучыга
- VERB-Part: ителгән, арттырылачак, бирелгән, булачак, булышыр, итәчәк, калыр, кертеләчәк, кузгатылган, оештырган
- VERB-Vnoun: саклау, Тикшерү, итү, Очрашуда, булуын, кую, көтелүе, ремонтлау, саклануның, җиңү
- Abl
- NOUN: тарафыннан, коронавирустан, Covid-19дан, Соңыннан, алдан, алдыннан, дөньядан, инфекциясеннән, ковидтан, күңелдән
- NUM: 65тән
- PRON: Моннан, Аннан
- PROPN: Кырымнан, Россиядән
- VERB-NomAg: яшәүчеләрдән
- Acc
- ADJ: төрлесен
- AUX: икәнен
- NOUN: ир-атны, көнне, милләтен, прививканы, торышын, эшне, юлларын, җәсәден, Белешмәлекне, Кичәне
- PRON: аларны, аны, барысын, үзебезне
- VERB-NomAg: укытучыларны
- VERB-Part: булганын, төзелгәнен
- VERB-Vnoun: булуын, Котлауларны, итүләрен, куллануыгызны, сынауны, торуын, чыгуларын, эшләвен, җиткерүен, өзелмәвен
- Dat
- NOUN: сумга, хаҗга, искә, секундына, халыкка, хәбәрчесенә, юлга, Бәйгегә, Кызганычка, Монументына
- PRON: безгә, моңа, Монда, Шуңа, аларга, сезгә
- PROPN: Гайнетдиновага, Камага
- VERB-NomAg: укытучыга
- VERB-Vnoun: төзекләндерүгә, чистартуга, чыгаруга
- Equ
- NOUN: сүзләренчә
- VERB-Part: иткәнчә, ачыклаганча
- VERB-Vnoun: итүенчә, әйтүенчә
- Gen
- ADP: ның
- NOUN: өлкәсенең, Республикасының, журналның, республиканың, халыкның, Россиянең, Себернең, Советының, Хөкүмәтенең, Юлламаларның
- PRON: аның, Безнең, аларның, сезнең, шуның, Үзебезнең, үзенең
- PROPN: Татарстанның, Казанның, Ломановның, Азнакайның, Бакиеваның, Каманың, Кучковскаяның, Миңнехановның, Фәттаховның
- VERB-NomAg: керүчеләрнең
- VERB-Vnoun: саклануның, үтәүнең
- Loc
- ADJ: якындагы, яшьтәге
- NOUN: апрельдә, көннәрендә, сайтында, хакта, өлкәсендә, вакытында, күләмендә, октябрьдә, республикада, шәһәрдә
- NUM: 12дә
- PROPN: Татарстанда, Аланында, Казанда, Кырымда, Әгерҗедә
- VERB-Part: караганда, уздырганда, әйткәндә
- VERB-Vnoun: Очрашуда, Җыештыруда
- Nom
- ADJ: соңгысы, яше, яшьлек, җәяүлеләр
- AUX-Vnoun: калу, алуы, бару, бетерү, чыгу
- NOUN: хәбәр, татар, кеше, һава, Дәүләт, министры, мөселман, халык, шәһәр, акча
- PRON: ул, үз, Без, алар, Бу, Россия, Сез, бары, барысы, үзең
- PROPN: Татарстан, Кама, Төмән, Марат, Казан, Рамил, Чиләбе, Әхмәтов, Василий, Россия
- VERB: саклау, Тикшерү, итү, кую, көтелүе, ремонтлау, торышы, яшәүчеләр, җиңү, үстерү
- VERB-NomAg: яшәүчеләр, Язучылар, итүчеләр, теләүчеләр, тикшерүчеләр, укучы, эшләүчеләр, язучылары, җиңүчеләре
- VERB-Part: күргәннәре
- VERB-Vnoun: саклау, Тикшерү, итү, кую, көтелүе, ремонтлау, җиңү, үстерү, авырулар, алу
Degree and Polarity
- Cmp
- ADJ: кимрәк
- ADV: бигрәк, соңрак
- Neg
- AUX-Fin: алмады, булмады
- VERB: артмаган, бирелми, булмаса, килми, кимемәсен, көтелми, өзелмәвен
- VERB-Conv: булмаса
- VERB-Fin: бирелми, килми, көтелми
- VERB-Part: артмаган
- VERB-Vnoun: өзелмәвен
Verbal Features
- Iter
- VERB-Conv: язгалый
- Perf
- VERB-Conv: башлангач, дигәч
- Prog
- VERB-Conv: бара, ачыклый, итә, кала, куллана, кыла, күрсәтелә, җиңә
- VERB-Part: югалта
- Cnd
- VERB-Conv: булмаса, булса, дисәгез, карасаң, оештырылса
- Imp
- VERB: булсын, кимемәсен, яз, ясагыз
- VERB-Fin: булсын, яз, ясагыз
- Ind
- VERB-Part: арттырылачак, булачак, кертеләчәк, төшәчәк
- Irr
- ADJ: кирәктер
- AUX-Part: калыр
- VERB-Part: булыр, булышыр, калыр, теләр
- Fut
- AUX-Part: алачак, калыр
- VERB-Part: булачак, итәчәк, төшәчәк, узачак, арттырылачак, башкарылачак, булыр, булышыр, калыр, кертеләчәк
- Past
- AUX-Fin: иде, алды, алмады, башладым, булмады, килдегез
- AUX-Part: торган, чыгарган, алганнар
- VERB: булган, диде, итте, ителгән, планлаштырылган, әйтте, башланган, белдерде, искәртте, ителде
- VERB-Fin: диде, итте, әйтте, белдерде, искәртте, ителде, катнашты, тапшырды, тапшырдылар, алдылар
- VERB-Part: булган, ителгән, планлаштырылган, башланган, иткәнчә, караганда, чыгарылган, артмаган, аталган, ачыклаганча
- Pres
- AUX-Fin: тора, ала, бирә, килә, үтә
- VERB-Fin: итә, ала, ителә, керә, саклана, фаразлана, алына, ассызыклый, ачыклый, бирелми
- Cau
- AUX-Part: чыгарган
- VERB-Conv: бастырып, танытып
- VERB-Fin: белдерде, аңлаттылар, искәртте
- VERB-Inf: ясатырга, югалтырга, үзгәртергә
- VERB-NomAg: Укытучыларны, укытучыга
- VERB-Part: оештырган, таптаткан, уздырганда, чагылдырган, югалта
- VERB-Vnoun: үстерү, аңлату, булдыру, кертү, төзекләндерү, төзекләндерүгә, уздыру, чистартуга, чыгару, чыгаруга
- CauPass
- VERB-Conv: оештырылса
- VERB-Fin: оештырылды
- VERB-Part: чыгарылган, арттырылачак, кертеләчәк, ясатылган, үзәкләштерелгән
- Mid
- VERB-Fin: саклана
- VERB-Part: сакланачак, җыелган
- Pass
- VERB-Conv: башлангач, борчылып, күрсәтелә, тупланып, төпләнеп
- VERB-Fin: ителә, ителде, фаразлана, алына, бетерелде, бирелә, бүләкләнде, киселде, китерелде, китерелә
- VERB-NomAg: тәрбияләнүче
- VERB-Part: ителгән, башланган, планлаштырылган, аталган, башкарылачак, билгеләнгән, бирелгән, иллюстрацияләнгән, кузгатылган, төзелгәнен
- VERB-Vnoun: көтелүе, саклануның, өзелмәвен
- Rcp
- VERB-Inf: аңлашырга
- VERB-Vnoun: Очрашуда, сөйләшүләр
Pronouns, Determiners, Quantifiers
- Dem
- PRON: Бу, Моннан, моңа, Аннан, Монда, Шуңа, шуның
- Neg
- PRON: Беркем
- Prs
- PRON: ул, аның, безгә, үз, Без, Безнең, алар, аларның, Сез, аларга
- Tot
- PRON: Барлык, бары, барысы, барысын
- Card
- NUM: бер, миллион, миллиард, 1, 10, 100, 11, 11318, 120, 15
- Ord
- NUM: 10, 1942, 27, 28, 7нче, III
- Yes
- PRON: үз, үзебезне, үзенең
- 1
- AUX: башладым, идем
- AUX-Fin: башладым
- PRON: безгә, Без, Безнең
- VERB-Fin: бастым, бәйлим, исбатладык, котлыйбыз, сорадык, сорыйм, үтенәм, үткәрдек, өметләнәбез, өметләнәм
- 2
- AUX-Fin: килдегез
- PRON: Сез, сезнең
- VERB-Conv: дисәгез, карасаң
- VERB-Fin: яз, ясагыз
- 3
- AUX: иде, тора, ала, алганнар, алды, алмады, бирә, булмады, калыр, килә
- AUX-Fin: иде, тора, ала, алды, алмады, бирә, булмады, килә, үтә
- AUX-Part: алганнар, калыр, чыгарган
- PRON: аның, ул, алар, аларны, аны
- VERB: диде, итте, итә, ителә, әйтте, ала, белдерде, булмаса, искәртте, ителгән
- VERB-Conv: булмаса, булса, оештырылса
- VERB-Fin: диде, итте, итә, ителә, әйтте, ала, белдерде, искәртте, ителде, катнашты
- VERB-Part: ителгән, төшәчәк, арттырылачак, башкарылачак, бирелгән, булачак, булган, булышыр, итәчәк, калыр
- Plur
- NOUN: телебез, Милләтебезне, Президентыбызга, Республикабызда, вәкаләтләрегезне, йолаларыбыз, милләттәшләребез, ныклыгыбызны, тарихыбыз, телебезгә
- PRON: Үзебезнең, үзебезне
- VERB-Vnoun: куллануыгызны
- Sing
- NOUN: юлыма, язмаларымны, Әбекәемнең
- PRON: үзең
Other Features
- Foreign
- Yes
- NOUN: Skoda
- Yes
- Person[psor]
- 1
- NOUN: телебез, Милләтебезне, Президентыбызга, Республикабызда, йолаларыбыз, милләттәшләребез, ныклыгыбызны, тарихыбыз, телебезгә, халкыбызның
- PRON: Үзебезнең, үзебезне
- 2
- NOUN: Язмаң, вәкаләтләрегезне
- PRON: үзең
- VERB-Vnoun: куллануыгызны
- 3
- ADJ: соңгысы, төрлесен, яше
- AUX: алуы, икәнен
- AUX-Vnoun: алуы
- NOUN: министры, районы, сүзләренчә, урынбасары, утлары, башлыгы, берләшмәләре, вәкилләре, көннәрендә, президенты
- PRON: барысы, үзенең
- PROPN: Аланында, Гарәбстаны
- VERB: булуын, көтелүе, торышы, аңлаулары, булганын, итүенчә, итүләрен, күргәннәре, торуын, төзелгәнен
- VERB-NomAg: җиңүчеләре
- VERB-Part: булганын, күргәннәре, төзелгәнен
- VERB-Vnoun: булуын, көтелүе, аңлаулары, итүенчә, итүләрен, торуын, чыгуларын, эшләвен, җиткерүен, әйтүенчә
- 1
Syntax
Auxiliary Verbs and Copula
- This corpus does not contain copulas.
- This corpus uses 17 lemmas as auxiliaries (aux). Examples: ал, кирәк, иде, тор, кал, мөмкин, тиеш, чык, кил, бар, башла, бетер, бир, бул, икән, түгел, үт.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN-Nom (3)
- VERB-Conv--NOUN-Nom (15)
- VERB-Conv--PRON-Nom (1)
- VERB-Fin--NOUN (1)
- VERB-Fin--NOUN-Nom (45)
- VERB-Fin--PRON (2)
- VERB-Fin--PRON-Nom (6)
- VERB-Inf--NOUN-Nom (5)
- VERB-Part--NOUN-Nom (24)
- VERB-Part--PRON-Nom (1)
- VERB-Vnoun--NOUN-Nom (4)
- obj
- VERB--NOUN-Acc (2)
- VERB-Conv--NOUN-Acc (11)
- VERB-Conv--NOUN-Nom (1)
- VERB-Conv--PRON-Acc (3)
- VERB-Fin--NOUN-Acc (15)
- VERB-Fin--NOUN-Nom (7)
- VERB-Inf--NOUN-Acc (6)
- VERB-Inf--NOUN-Nom (3)
- VERB-NomAg--NOUN-Acc (1)
- VERB-NomAg--NOUN-Nom (2)
- VERB-Part--NOUN-Acc (5)
- VERB-Part--NOUN-Nom (5)
- VERB-Part--PRON-Acc (1)
- VERB-Vnoun--NOUN (1)
- VERB-Vnoun--NOUN-Acc (20)
- VERB-Vnoun--NOUN-Nom (11)
Verbs with Reflexive Core Objects
- This corpus contains 1 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: сакла үзебезне
Relations Overview
- This corpus uses 2 relation subtypes: advmod:emph, compound:lvc
- The following 11 relation types are not used in this corpus at all: iobj, csubj, vocative, expl, dislocated, cop, clf, list, orphan, goeswith, reparandum