UD Estonian EWT
Language: Estonian (code: et
)
Family: Uralic
This treebank has been part of Universal Dependencies since the UD v2.4 release.
The following people have contributed to making this treebank part of UD: Kadri Muischnek, Kaili Müürisep, Tiina Puolakainen, Dage Särg, Sandra Eiche, Andriela Rääbis.
Repository: UD_Estonian-EWT
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-NC-SA 4.0
Genre: blog, web, social
Questions, comments? General annotation questions (either Estonian-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [kadri • muischnek (æt) ut • ee, kaili • muurisep (æt) ut • ee]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | annotated manually in non-UD style, automatically converted to UD |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | annotated manually in non-UD style, automatically converted to UD |
Features | annotated manually in non-UD style, automatically converted to UD |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
UD EWT treebank consists of different genres of new media. The treebank contains 7,190 trees, 90,585 tokens.
Estonian Web Treebank UD v2.13 consists of four parts. Its older part (1,662 trees, v2.4) is a converted version of the Estonian Web Treebank (EWT), originally annotated in the Constraint Grammar (CG) annotation scheme, and consisting of different genres of new media. The second part (1,495 trees, v2.6) consists of internet forum texts and has been annotated using Stanza parser, followed by manual post-editing. The third part (v2.8) has been annnotated in the same way. It consists of users’ feedbacks to news about Covid19 pandemic in 2020-2021 (~12,725 tokens). The fourth part consists of different forum texts (reddit, military, gardening, cars). In addition to standard ud annotation, annotation of named entiites has been added to MISC-field (NE=B-Type or NE=I-Type, there TYPE stands for PER (person), ORG (organisation), LOC (location), GEP (geopolitical name), EVENT (events), PROD (product), MUU (other) or UNK (unknown)).
The treebank consists of 7,190 trees, 90,585 tokens. As for enhanced dependencies, the empty nodes for missing predicates have been added, and the relative pronoun is attached to its antecedent with the relation ‘ref’, also other enhanced dependencies have been added since version 2.13
The treebank has been divided to train, test and dev parts as 67,431; 13,152 and 10,002 tokens respectively.
The treebank covers unedited new media texts.
Acknowledgments
We wish to thank developers of Udapi, UD Annotatrix, and ConlluEditor tools.
This work was financed by the National Programme for Estonian Language Technology and Estonian Ministery of Education and Research (grant 20-56 IUT20-56 “Computational models for Estonian”).
Statistics of UD Estonian EWT
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
Abbr – AdpType – Case – Connegative – Definite – Degree – Foreign – Gender – Hyph – Mood – Number – NumForm – NumType – Person – Polarity – Poss – PronType – Reflex – Style – Tense – Typo – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advmod – amod – appos – aux – case – cc – cc:preconj – ccomp – compound – compound:prt – conj – cop – csubj – csubj:cop – dep – det – discourse – fixed – flat – flat:foreign – goeswith – list – mark – nmod – nmod:poss – nsubj – nsubj:cop – nummod – obj – obl – obl:agent – orphan – parataxis – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 7190 sentences, 90583 tokens and 90584 syntactic words.
- This corpus contains 14461 tokens (16%) that are not followed by a space.
- This corpus contains 2 types of words with spaces. Examples: 14 000, 20 000
- This corpus contains 627 types of words that contain both letters and punctuation. Examples: :d, a., võib-olla, :s, paha-paha, Coq'i, e., nn., l/ha, nt., |-X-|, :lol:, covid-19, E-330, sape.ru, PC_man, T-72, e-teenindusse, ja-le, km/h, :P, :o, @ausalt, A.Le, B., BMW-d, F.a.Q, R-mees, eelmine-q-le, inc., jms., jne., kl., m-parkimine, n., tie-break’i, /me, 2-ga, 2009-suvel, 7-seeria, 9-nda, ;D, @arvan, @eleonore, Coq-i, Dr.x, EKV-le, Google’i, I-M13, ITF-i
- This corpus contains 1 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 1 types of multi-word tokens. Examples: IT's.
Morphology
Tags
- This corpus uses 17 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus contains 2 word types tagged as particles (PART): not, to
- This corpus contains 61 lemmas tagged as pronouns (PRON): You, enda, i, iga, iga_üks, ise, ise_enese, ise_sugune, it, ja_veel_üks, kedagi-midagi, keegi, kes, kes_se, kolmas, kumb, kumbki, kõige, kõigest, kõik, ma_i, mina, mingi, mingi_sugune, mis, miski, mitte_keegi, mitte_miski, mitu, muu, my, mõlema, mõni, need, nii_palju, nii_sugune, oma, palju, sama, see, see_sama, selline, sest, sina, smth, tegelt, teine, teine_teise, teist_sugune, tema, temake, this, too, vot, what, whatever, üht-teist, üks, üks_teise, üksi, ükski
- This corpus contains 50 lemmas tagged as determiners (DET): 1, Alle, a, iga, iga_sugu, iga_sugune, igast, keegi, kogu, kõik, kõik_sugu, milline, mingi, mingi_sugune, mingine, minu_sugune, mis, mis_sugune, miske, miski, mitme_sugune, mitmes, mitu, mitu-mitu, muu, mõlema, mõni, mõningas, nii_sugune, no, palju, sama, sama_sugune, see, see_sama, see_sinane, selline, sihuke, sinu_sugune, siuke, säherdune, säärane, teine, teist_sugune, terve, the, this, too, üks, ükski
- Out of the above, 23 lemmas occurred sometimes as PRON and sometimes as DET: iga, keegi, kõik, mingi, mingi_sugune, mis, miski, mitu, muu, mõlema, mõni, nii_sugune, palju, sama, see, see_sama, selline, teine, teist_sugune, this, too, üks, ükski
- This corpus contains 11 lemmas tagged as auxiliaries (AUX): be, do, ei, näima, olema, pidama, saama, tohtima, tunduma, võima, ära
- Out of the above, 7 lemmas occurred sometimes as AUX and sometimes as VERB: näima, olema, pidama, saama, tohtima, tunduma, võima
- There are 6 (de)verbal forms:
- Conv
- AUX: olles
- VERB: võrreldes, arvates, vaadates, minnes, võttes, arvestades, kasutades, lugedes, ostes, pannes
- Fin
- AUX: on, oli, pole, oleks, ole, olen, võib, peaks, saab, võiks
- VERB: on, tuleb, saab, tea, läheb, pole, saa, tuli, läks, sain
- Ger
- VERB: leading
- Inf
- AUX: olla, tunduda
- VERB: teha, saada, minna, teada, öelda, panna, osta, näha, võtta, kirjutada
- Part
- ADJ: huvitav, antud, teatud, erinevaid, ülejäänud, kasutatud, erinevate, tehtud, asetatud, karastatud
- AUX: olnud, võinud, pidanud, saanud, pinanud, v6inud
- NOUN: nakatunuid, surnuid, nakatunutest, nakatunut, nakatunu, nakatunust, nakatunute, surnu, surnut, Kirjapandu
- VERB: saanud, kuulnud, läinud, tulnud, pandud, tehtud, teinud, näinud, jäänud, antud
- Sup
- ADJ: Tegemata, harmoniseerimata, katmata, lahendamata, niitmata, ostmata, poolitamata, tasumata, tasustamata, treenimata
- AUX: olema, olemagi, olemaks, saama
- VERB: olemas, tegema, minema, hakkama, maksma, saama, rääkimata, mõtlema, ostma, tulema
Nominal Features
- Fem
- NOUN: marken
- Masc
- NOUN: Gebrauchtwagen
- Neut
- NOUN: modelle
- PRON: IT
- Plur
- ADJ: head, vanad, erinevaid, suured, häid, uusi, erinevate, suurte, uued, mustad
- ADJ-Part: erinevaid, erinevate, erinevad, erinevatel, erinevatest, huvitavad, olevate, huvitavaid, langevad, arenevad
- AUX-Fin: on, olid, oleme, võivad, peavad, olete, peaksid, võiksid, oleksid, olime
- DET: need, kõik, neid, nende, mingid, paljud, mingeid, mõned, sellised, selliste
- NOUN: inimesed, inimesi, asju, asjad, inimeste, autosid, teemad, naised, mehed, tulemused
- NOUN-Part: nakatunuid, surnuid, nakatunutest, nakatunute, Tänud, haigestunuid, haigestunute, haigestunutest, hukkunute, lõpetanud
- NUM: tuhandeid, sadu, kümneid, pooled, miljarditest, 2-de, 3'si, 5'si, 5-si, kümnetes
- PRON: nad, kes, neid, meie, need, me, meil, mis, nende, kõik
- PROPN: pasid, Paside, Pasidega, sepapoisid, vasurite, Abramseid, Alekukke, Arstiteadusüliõpilaste, BTR-d, BTR-ide
- SYM: S3'med
- VERB-Fin: lähevad, tulevad, on, saavad, teevad, jäävad, teeme, elame, käivad, tahavad
- Sing
- ADJ: hea, suur, võimalik, õige, huvitav, parem, vana, uus, esimene, lihtne
- ADJ-Part: huvitav, leviv, mõeldav, olevast, vastav, vastava, elavana, erinev, hirmutav, huvitavaks
- AUX: on, oli, olen, võib, saab, peab, oled, ongi, sai, olin
- AUX-Fin: on, oli, olen, võib, saab, peab, oled, ongi, sai, olin
- DET: see, mingi, selle, seda, iga, üks, selline, sama, mingit, sellest
- NOUN: asi, aasta, teema, aru, auto, inimene, aastat, raha, aega, osa
- NOUN-Part: nakatunut, nakatunu, nakatunust, surnu, surnut, Kirjapandu, eeltoodu, haigestunut, kirjutatut, lahtiharutatuna
- NUM: kaks, paar, ühe, üks, kahe, kolm, miljonit, paari, poole, miljoni
- PRON: ma, see, mis, seda, oma, ta, sa, midagi, mida, kes
- PROPN: eesti, saku, eestis, Jumal, ViinaMuri, Neeme, tartu, d2xz, tallinna, vasur
- SYM: @, S3-el
- VERB-Fin: on, tuleb, saab, läheb, tuli, läks, sain, arvan, teeb, teab
- Abe
- ADJ-Sup: Tegemata, harmoniseerimata, katmata, lahendamata, niitmata, ostmata, poolitamata, tasumata, tasustamata, treenimata
- NOUN: tasuta, põhjuseta, ERANDITA, Tulemusteta, abita, autota, graafikata, helita, internetita, kannatusteta
- PRON: selleta
- PROPN: Terviseametita
- VERB-Sup: rääkimata, teadmata, tegemata, olenemata, edutamata, lugemata, müümata, panemata, saamata, sõltumata
- Abl
- ADJ: haigetelt, kallimalt, lollidelt, milliselt, odavamalt, suuliselt, suurelt, tagumistelt, tähtajaliselt
- DET: k6igelt, mõnelt, nendelt, sellelt
- NOUN: maalt, tugevuselt, emalt, kohalt, puusalt, seisukohalt, suuruselt, taimedelt, teelt, Avamaalt
- NUM: 500ltgi, 700lt
- PRON: nendelt, endalt, mult, neilt, teilt, temalt, igalt, kellelt, minult, muult
- PROPN: Venemaalt, Saksamaalt, Sakult, Airilt, Allisonilt, Krossilt, Lasnamäelt, Maalt, Taanilt, harjumaalt
- Acc
- PRON: me
- Add
- ADJ: Tehnilisse, ametlikku, järgmisse, karmi, kirjalikku, rohelisse, uude
- DET: teise
- NOUN: kooli, koju, kätte, meelde, aeda, pähe, korda, kirja, ellu, paika
- PRON: teise
- PROPN: Bin`i, Hast"`i, Kaagverre, Kuressaarde, Lätti, Virru, corvette'i, reaali, soccerneti, westholmi
- Ade
- ADJ: viimasel, eelmisel, järgmisel, erinevatel, esimesel, heal, praegusel, õigel, parimal, headel
- ADJ-Part: erinevatel, saadaval, Tuleval, huvitaval, käesoleval, piisaval, seisval, t2navatel, toitval, tungival
- DET: igal, sel, sellel, mingil, samal, sellisel, ühel, kõigil, mõnel, paljudel
- NOUN: hetkel, ajal, juhul, aastal, teemal, kevadel, suvel, hommikul, inimestel, päeval
- NUM: kahel, 2-l, kolmel, neljal, paaril
- PRON: mul, meil, sul, tal, neil, endal, millel, kellel, minul, kel
- PROPN: saaremaal, Saksamaal, sakul, Eestil, Larkol, Maal, Openil, Venemaal, Zoppil, coq'il
- SYM: S3-el
- All
- ADJ: teisele, eelnevale, heale, sügavamale, uutele, vanusele, õigele, 10, 5-ndale, 700
- ADJ-Part: eelnevale, hoolitsevale, liikuvale, mõtlevale, mööduvatele, rünnatavatele, tegevatele, toimuvale, vajavale
- DET: sellele, mingile, igale, nendele, sellisele, kõigile, mingitele, muule, sellistele, ühele
- NOUN: tööle, inimestele, lehele, teele, kohale, inimesele, peole, asjale, hobusele, koolile
- NUM: 1-le, 2-3le, 3-le, 40'le, 700'le, kahele
- PRON: mulle, endale, talle, neile, sellele, sulle, meile, kõigile, kellele, omale
- PROPN: eestile, ja-le, Maale, Suvatüübile, eelmine-q-le, saaremaale, EKV-le, Ivanovile, Leelotajale, Marsile
- Com
- ADJ: eelnevatega, enesekindlatega, koroonapositiivsega, rohkemaga, seitsmesajasega, siukstega, sõjalisega, täiega, vanaga, viiestega
- ADJ-Part: eelnevatega
- NOUN: teemaga, lamelliga, auhinnafondiga, autoga, hinnaga, kiirusega, mullaga, aastaga, koroonaga, lamellidega
- NUM: 100ga, 2-ga, kümnega, 1-ga, 10k, 11-4ga, 2k, 50ga, 60.000-ga, 700ga
- PRON: sellega, millega, nendega, temaga, kellega, sinuga, meiega, minuga, omadega, teistega
- PROPN: Venemaaga, Jumalaga, Lugejaga, Malouliga, Pasidega, cobraga, porschega, roundupiga, Ajaga, Andersoniga
- Ela
- ADJ: erinevatest, olevast, heast, keskmisest, millisest, viimasest, konkreetsest, lahtisest, millistest, suulisest
- ADJ-Part: erinevatest, olevast, Eelnevast, algavast, arvestatavatest, juhtivast, jõudvast, kavandatavast, kohutavast, pakkuvast
- DET: sellest, ühest, neist, nendest, igast, kõigist, mingist, mingitest, samast, kõigest
- NOUN: ajast, algusest, asjast, valgusest, koolist, teemast, aastast, klassist, koroonaviirusest, autodest
- NOUN-Part: nakatunutest, nakatunust, haigestunutest
- NUM: miljonist, kümnest, miljarditest, ühest, 100st, 110-st, 38-st, 400st, Sajast, kahest
- PRON: sellest, millest, neist, minust, meist, teistest, temast, nendest, teineteisest, endast
- PROPN: Hiinast, saksast, saxast, Eestist, Juryost, Scoutspataljonist, itaaliast, Ambassador'ist, Boccellist, Boltist
- VERB-Sup: olemast, elamast, jagamast, mõtlemast, ütlemast
- Ess
- ADJ: esimesena, elavana, kolmandana, surnuna, teisena, jõuetuna, jõulisena, kõikvõimsana, looduslikena, lõigatuna
- ADJ-Part: elavana, surnuna, lõigatuna, pruugituna, sõnastatuna, vaadatuna, väsinuna
- NOUN: reeglina, Näitena, asjana, haigena, keelena, kiirmaksena, tervikuna, (laste)arstina, Kõrvalepõikena, Püsikasutajana
- NOUN-Part: lahtiharutatuna, saanuna, sõitnuna, väljalülitatuna
- PRON: sellisena, minuna, sellistena
- Gen
- ADJ: suure, uue, hea, esimese, vana, viimase, eelmise, erinevate, korraliku, suurte
- ADJ-Part: erinevate, olevate, vastava, eelneva, erineva, huvitava, valitseva, Lälisevate, arvestatava, asetseva
- DET: selle, mingi, iga, sellise, ühe, mõne, nende, sama, selliste, teise
- NOUN: aasta, inimese, auto, teema, elu, inimeste, nime, viiruse, koha, maailma
- NOUN-Part: nakatunu, nakatunute, eeltoodu, haigestunute, hukkunute, nakatanute, sisserännanute, surnu, surnute, tarbitu
- NUM: ühe, kahe, paari, miljoni, poole, nelja, viie, kolmandiku, kolme, 9nda
- PRON: oma, minu, selle, meie, enda, nende, tema, mu, sinu, mille
- PROPN: eesti, saku, tallinna, tartu, Jumala, riigikogu, saaremaa, Coq'i, Hiina, Itaalia
- Ill
- ADJ: põlevasse, 10-ndasse, 10.ndasse, ebasoodsasse, hispaaniakeelsesse, järjekordsesse, kaesolevasse, kaugetesse, kostuvasse, kuumadesse
- ADJ-Part: põlevasse, kaesolevasse, kostuvasse, käsilolevasse, lugupidavasse, voolavasse, vähekäidavasse
- AUX-Sup: olema, olemagi, saama
- DET: samasse, sellesse, mõnda, neisse, Sellistesse, mingitesse, muudesse, sellisesse, ühte
- NOUN: teemasse, sanyakusse, arvesse, kasvuhoonesse, arvutisse, koroonasse, peenrasse, kohtadesse, koondus-folderitesse, kuklasse
- NUM: 10ndasse
- PRON: endasse, millesse, sellesse, temasse, kellessegi, meisse, minusse, teise
- PROPN: eestisse, Torisse, C-sse, EMEX-sse, ERMi, Fabiasse, Google'isse, Gümnaasiumisse, Indiasse, Jaapanisse
- VERB-Sup: tegema, minema, hakkama, maksma, saama, mõtlema, ostma, tulema, kirjutama, kasvama
- Ine
- ADJ: teises, esimeses, otseses, suures, heas, kasvavas, praeguses, uues, 9ndas, avalikes
- ADJ-Part: kasvavas, erinevates, esindavates, jõudvas, kandvas, liikuvas, nähtavas, olevates, sallivas, teatavas
- DET: selles, igas, teises, mingis, mõnes, ühes, mõlemas, paljudes, samas, sellises
- NOUN: koolis, ajas, kodus, maailmas, mõttes, elus, alguses, korras, käes, linnas
- NUM: 2's, 2s, kolmes, kümnetes, poole
- PRON: selles, milles, sinus, paljuski, omas, endas, iseendas, meis, milleski, minus
- PROPN: eestis, hiinas, tallinnas, euroopas, msnis, itaalias, tartus, msnnis, soomes, Indias
- VERB-Sup: olemas, kihutamas, tegemas, tulemas, lendamas, olema, aitamas, avastamas, hängimas, kasvamas
- Nom
- ADJ: hea, suur, võimalik, huvitav, õige, parem, uus, esimene, lihtne, tore
- ADJ-Part: huvitav, erinevad, huvitavad, leviv, mõeldav, vastav, erinev, hirmutav, langevad, nakkav
- DET: see, mingi, kõik, need, üks, selline, iga, teine, mis, sama
- NOUN: asi, inimesed, inimene, teema, mees, päev, auto, aeg, aasta, osa
- NOUN-Part: Kirjapandu, Tänud, läbipõdenu, lõpetanud, põdenud, surnu
- NUM: kaks, paar, üks, kolm, pool, viis, paarkümmend, pooled, kaheksa, kuus
- PRON: ma, see, mis, kes, ta, sa, keegi, mina, nad, kõik
- PROPN: Jumal, ViinaMuri, Neeme, d2xz, vasur, Ennist, Pärtel, nomad, saku, gasoline
- SYM: @, S3'med
- Par
- ADJ: head, suurt, erinevaid, esimest, sellist, häid, uut, uusi, erilist, teist
- ADJ-Part: erinevaid, huvitavaid, huvitavat, õitsvat, olevaid, söödavaid, Püsivat, asuvaid, edasiliikuvat, edutatavaid
- DET: seda, mingit, neid, sellist, mingeid, mõnda, selliseid, kõiki, teisi, sama
- NOUN: aru, aastat, aega, inimesi, raha, korda, asju, asja, autot, inimest
- NOUN-Part: nakatunuid, surnuid, nakatunut, surnut, haigestunuid, haigestunut, kirjutatut, solvunuid, tervenenuid
- NUM: miljardit, miljonit, tuhandeid, sadu, ühtegi, tuhat, ühte, kahte, kümneid, 3'si
- PRON: seda, midagi, mida, neid, mind, ennast, muud, sind, end, kõike
- PROPN: sakut, BMW-d, premiumit, Coq'i, Dimmut, Kalevipoega, Kulda, Vasurit, fordi, iisraeli
- Ter
- ADJ: praeguseni
- DET: selleni
- NOUN: lõpuni, alguseni, kraadini, ajurakkudeni, eesmärgini, hetkeni, hommikuni, karantiini, keeluni, klaasini
- NUM: 160-ni, 5ni
- PRON: selleni, meieni, milleni, minuni, sinuni
- Tra
- ADJ: selgeks, järgmiseks, lolliks, suuremaks, terveks, huvitavaks, mustaks, niiskeks, pikemaks, puhtaks
- ADJ-Part: huvitavaks, huvipakkuvateks, iseseisvaks, kuuluvaks, kättesaadavaks, leitavaks, mitte-veateadet-väljastavaks, otsustavaks, poolkrõmpsuvaks, saadavaks
- AUX-Sup: olemaks
- DET: selleks, igaks, mingiks, igaksu, mingiteks, mõneks, samaks, yheks, üheks
- NOUN: lisaks, abiks, ajaks, lõpuks, õnneks, juhuks, tõrjeks, aastaks, hetkeks, kaitseks
- NUM: üheks, 2-ks, kolmeks, pooleks
- PRON: selleks, omaks, millekski, samaks, Mõlemaks, tolleks, üheks
- PROPN: Kaitseks
- VERB-Sup: vältimaks, Parandamaks, näitamaks, nõustamakas, pakkumaks, varustamaks, väljendamaks
- Def
- DET: the
- Ind
- DET: a
Degree and Polarity
- Cmp
- ADJ: parem, suurem, lihtsam, raskem, paremad, hullem, kergem, parema, suurema, suuremaks
- Pos
- ADJ: hea, suur, võimalik, õige, huvitav, head, vana, uus, lihtne, tore
- ADJ-Part: huvitav, antud, teatud, erinevaid, ülejäänud, kasutatud, erinevate, tehtud, asetatud, karastatud
- ADJ-Sup: Tegemata, harmoniseerimata, katmata, lahendamata, niitmata, ostmata, poolitamata, tasumata, tasustamata, treenimata
- Sup
- ADJ: parim, parima, suurim, parimad, parimaid, parimate, Suurimad, enim, huvitavaim, ilusaima
- Neg
- ADV: mitte, ega
- AUX: ei, pole, ära, polnud, poleks, polegi, ple, mai, ärge, ärgu
- AUX-Fin: pole, ära, polnud, poleks, polegi, ple, ärge, ärgu, pold, poleksi
- CCONJ: ega
- PRON: mai
- VERB-Fin: pole, polegi, polnud, Pold, mõtle, plee, poleks, polnd, tea, teinud
Verbal Features
- Cnd
- AUX-Fin: oleks, peaks, võiks, saaks, poleks, oleksin, peaksid, võiksid, tohiks, oleksid
- VERB-Fin: tahaks, tuleks, oleks, saaks, läheks, hakkaks, jääks, ütleks, annaks, teeks
- Imp
- AUX-Fin: ära, olgu, ole, ärge, olge, olgem, ärgu, 0le, do, Ärgem
- VERB-Fin: vaata, mine, mõtle, minge, tee, võta, proovi, kirjuta, ütle, kuule
- VERB-Inf: osta
- Ind
- AUX-Fin: on, oli, pole, ole, olen, võib, saab, peab, saa, oled
- VERB-Fin: on, tuleb, saab, tea, läheb, pole, saa, tuli, läks, sain
- Qot
- AUX-Fin: olevat, pidavat
- VERB-Fin: Räägitavat, andvat, hoidvat, mainivat, meeldivat, minevat, säilivat, tahetavat, tegevat
- Past
- ADJ-Part: antud, teatud, ülejäänud, kasutatud, tehtud, asetatud, karastatud, mainitud, peidetud, seotud
- AUX-Fin: oli, olid, sai, olin, olnud, polnud, pidi, tundus, pidin, olime
- AUX-Part: olnud, võinud, pidanud, saanud, pinanud, v6inud
- NOUN-Part: nakatunuid, surnuid, nakatunutest, nakatunut, nakatunu, nakatunust, nakatunute, surnu, surnut, Kirjapandu
- VERB-Fin: tuli, läks, sain, ütles, oli, sai, kirjutasin, jäi, panin, hakkas
- VERB-Part: saanud, kuulnud, läinud, tulnud, pandud, tehtud, teinud, näinud, jäänud, antud
- Pres
- ADJ-Part: huvitav, erinevaid, erinevate, erinevad, erinevatel, erinevatest, huvitavad, leviv, mõeldav, olevast
- AUX-Fin: on, pole, oleks, ole, olen, võib, peaks, saab, võiks, peab
- VERB-Fin: on, tuleb, saab, tea, läheb, pole, saa, arvan, tahaks, teeb
- VERB-Part: giving, sharing
- Act
- ADJ-Part: huvitav, erinevaid, ülejäänud, erinevate, erinevad, tulnud, erinevatel, erinevatest, huvitavad, leviv
- ADJ-Sup: Tegemata, harmoniseerimata, katmata, lahendamata, niitmata, ostmata, poolitamata, tasumata, tasustamata, treenimata
- AUX: on, oli, pole, oleks, ole, olen, võib, peaks, saab, olema
- AUX-Fin: on, oli, pole, oleks, ole, olen, võib, peaks, saab, võiks
- AUX-Part: olnud, võinud, pidanud, saanud, pinanud, v6inud
- AUX-Sup: olema, olemagi, olemaks, saama
- NOUN-Part: nakatunuid, surnuid, nakatunut, nakatunu, nakatunust, surnut, Tänud, haigestunuid, haigestunut, haigestunute
- VERB-Fin: on, tuleb, saab, tea, läheb, pole, saa, tuli, läks, sain
- VERB-Part: saanud, kuulnud, läinud, tulnud, teinud, näinud, jäänud, käinud, võtnud, jõudnud
- VERB-Sup: olemas, tegema, minema, hakkama, maksma, saama, rääkimata, mõtlema, ostma, tulema
- Pass
- ADJ-Part: antud, teatud, kasutatud, tehtud, asetatud, karastatud, mainitud, peidetud, seotud, tuntud
- NOUN-Part: nakatunutest, Kirjapandu, Nakatunuid, eeltoodu, haigestunutest, lahtiharutatuna, nakatunute, surnu, sõitnuna, tarbitu
- VERB-Fin: tehakse, hakatakse, tahetakse, öeldi, pandi, pannakse, saadakse, võeta, öeldakse, arvatakse
- VERB-Part: pandud, tehtud, antud, kirjutatud, lisatud, loodud, öeldud, mõeldud, keelatud, planeeritud
- VERB-Sup: kõrvaldatama, pandama
Pronouns, Determiners, Quantifiers
- Art
- DET: the, a
- Dem
- ADJ: selline, sama, sellist, sellised, samad, samasugune, esimesele, niisugune, samasugused, samasugust
- DET: see, selle, seda, need, selline, sama, neid, sellest, sellist, teine
- PRON: see, seda, selle, neid, need, sellest, selles, sellega, selleks, nende
- PROPN: Sama
- Ind
- ADJ: mingisugust, millistes, mingisuguseid, mõnda, mõndagi, mõned, mõni, mõnigi
- DET: mingi, üks, mingit, ühe, mingid, mõne, paljud, mõni, mingeid, mõned
- PRON: midagi, keegi, muud, kellegi, kedagi, millegi, mõned, paljud, miski, üks
- Int
- PRON: What, whatever
- Int,Rel
- ADJ: milline, missugune, millise, millist, millistest
- DET: mis, millaised, millised, millises, missugune
- PRON: mis, kes, mida, mille, millest, kelle, milles, keda, millega, kellele
- Neg
- DET: no
- Prs
- ADJ: omas
- PRON: ma, oma, ta, sa, mul, minu, mina, nad, meie, me
- Rcp
- PRON: teineteise, teineteisest, üksteise, üksteist, uksteisele, üksteisel, üksteisele
- Rel
- ADJ: milline, millise, milliseid, millisest, kumb, millised, millist, milliselt, millistele, millistest
- DET: millises, millist
- PRON: what
- Tot
- DET: kogu, kõik, iga, igal, terve, igas, kõiki, igast, kõigi, igale
- PRON: kõik, kõike, kõigile, kõigil, igal, mõlemad, kõige, kõigi, mõlemal, k6ik
- Card
- ADJ: 300, 700
- NUM: 2, 10, 3, 1, 100, kaks, paar, 4, ühe, üks
- PROPN: saku0007
- SYM: 011100110101010
- Frac
- NUM: poole, kolmandiku, pool, pooled, 3/4, kolmveerand, neljandik, pooleks
- Ord
- ADJ: esimene, esimese, 3., esimest, 27., teine, teises, 1., 2., 29.
- NUM: 4., 9nda, 1., 10, 10ndasse, 11, 15., 18., 1998., 2.
- Range
- NUM: 3-4, 15-20, 2-3, 4-6, 1-1,5, 13-15, 2-3le, 3-5, 5-6, 50-80
- Yes
- ADJ: omas
- PRON: oma, omal, omale, my, omadega, omad, omaks, omast, omade, omadele
- Yes
- PRON: enda, ise, endale, ennast, end, endal, omale, endasse, enese, teineteise
- 1
- AUX-Fin: olen, oleme, olin, pean, oleksin, pidin, võin, saan, olime, peame
- PRON: ma, mul, minu, mina, meie, me, meil, mulle, mu, mind
- VERB-Fin: sain, arvan, tean, lähen, kirjutasin, saan, panin, loodan, palun, usun
- 2
- AUX-Fin: oled, võid, ära, olete, pead, ole, saad, saate, ärge, oledki
- PRON: sa, sinu, sul, te, sina, sind, su, sulle, teie, teile
- VERB-Fin: saad, tead, teed, vaata, mine, tahad, mõtle, arvad, hakkad, minge
- 3
- AUX-Fin: on, oli, võib, saab, peab, olid, ongi, sai, pidi, võivad
- PRON: ta, nad, tema, talle, neile, nende, tal, teda, neil, nemad
- VERB-Fin: on, tuleb, saab, läheb, tuli, läks, teeb, teab, jääb, ütles
Other Features
- Abbr
- Yes
- ADJ: nn, nn., prof., h., lp., orig.
- ADV: jne, vms, nt, jms, ca, st, imo, jm, ntx, mh
- CCONJ: e., a, e, vs
- INTJ: wtf, PS, Sry, lol, mdx, omg, wtf.
- NOUN: a, ATP, p, z, b, k, cm, km, l/ha, TT
- PRON: smth, smth.
- PROPN: le, a., YOU, |=X=|, BMW, rs1, usa, NATO, sape.ru, T-72
- SYM: %, &, CO2, TR-23, €, S3-el, i-
- VERB-Fin: Vt
- X: NB, ^, imo, in, to
- Yes
- AdpType
- Post
- ADP: eest, kohta, jaoks, peale, pärast, puhul, all, järgi, vastu, juurde
- ADV: ette
- Prep
- ADP: üle, peale, enne, ilma, koos, pärast, läbi, kuni, tänu, mööda
- Post
- Connegative
- Yes
- AUX: ole, saa, ei, olnud, pea, tohi, oleks, peaks, olegi, tohiks
- AUX-Fin: ole, saa, olnud, pea, tohi, oleks, peaks, olegi, tohiks, peagi
- VERB-Fin: tea, saa, ole, taha, usu, oska, tee, hakka, suuda, tule
- Yes
- Foreign
- Yes
- ADJ: ultimagte
- ADV: bolshe, maybe, tohhujaa, a'la
- INTJ: HUI, bljääd, h.ui, tavai
- NOUN: sanyakusse, basho, sanyaku, komusubi, bashoks, komusubiks, maegashirasse, ozekide, point, rikishi
- PROPN: My, music, appstorest
- X: to, Enthusiasistic, offtopic, da, know, n6u, no, offence, u, E
- Yes
- Hyph
- Yes
- NOUN: ees-, keeramis-, raputamis-, PR-, ajakirjak-, e-, hobi-, karantiini, kirja-, kirjandus-
- PUNCT: ---, --
- SYM: i-
- Yes
- NumForm
- Digit
- ADJ: 3., 27., 1., 2., 29., 5., 8., 9., 15., 18.
- NUM: 2, 10, 3, 1, 100, 4, 20, 5, 15, 90
- PROPN: saku0007
- SYM: 011100110101010
- Roman
- ADJ: II, I, I-ne, II-st
- Word
- ADJ: esimene, esimese, esimest, teine, teises, teist, esimeses, esimesel, teisele, esimesed
- NUM: kaks, paar, ühe, üks, kahe, kolm, miljonit, paari, poole, miljardit
- Digit
- Style
- Slng
- ADV: aint, pohh, põmst, Pmst, Sitaks, nati, veits
- NOUN: matat, Venkude, bemii, bena, dolbajoob, eequ, füssa, inime, jalkas, jopa-kollaga
- PROPN: bemmi, põmmi, sapikale, senale, Alekukke, Yugo, alekokki, bemari, bemm, bemme
- VERB-Fin: Ruulime, plekkab
- Slng
- Typo
- Yes
- ADJ: 700, 300, k6va, lol, lyhike, vanat, 10, 1939, 3-se, 30
- ADJ-Part: jooduav, järgevad, kaesolevasse, katastatud, korrtaldatud, krõvisevaid, kõkuvaid, liikuvad, meristeermpaljundatud, pandu
- ADP: yle, est, jaosk, juure, kuures, mõõda, prst, pärast´, seos, ymber
- ADV: nyyd, yldse, yhes6naga, ala, kyll, 2kki, Sellepräast, akki, j2rgi, k2tte
- AUX: ple, olex, vöib, 0le, 2ra, SAAKASI, e, olek, olrnudki, pinanud
- AUX-Fin: ple, olex, vöib, 0le, SAAKASI, olek, olrnudki, pn, pold, poleksi
- AUX-Part: pinanud, v6inud
- CCONJ: vòi, J, ag, jja, voi, vöi
- DET: yks, üksi, igaksu, k6igelt, k6iki, kogi, m6nes, m6ni, migni, millaised
- INTJ: aitähh, Aitah, Ooot, tralllaaaa, v2
- NOUN: miis, ühsikonna, Minupuhl, autut, bio, dushi, henerasvad, kvant, masinaehitus, medistsiinigeenius
- NUM: 10, 100, 1, 10k, 11, 2, 2k, 5, 700, 800
- PRON: k6ik, KÕIIK, Mede, asee, iga, igauks, kelle, kellelgil, koigega, kôik
- PROPN: saku, eestis, ice, eleonore, msnnis, on, rock, sakut, tartu, tartus
- PUNCT: !!11, 8, ???+
- SCONJ: ehki, ku, magu, nigu, seszt, sis
- VERB-Conv: v6rreldes, l2htudes, oller, pääste
- VERB-Fin: kkeelas, n2itab, olex, saax, teind, yritas, Karanteerin, Pidivad, Pold, Täitan
- VERB-Inf: näitata, 6ppida, aidat, avaldadda, hakkata, heitada, k6ristada, komenteerida, kysida, n2ha
- VERB-Part: näind, arvand, eletatud, hakkanud, keritu, kuulnd, läind, m6elnd, mainiutd, mõenud
- VERB-Sup: olema, haippima, m6tlema, müüa, nõustamakas, panematta, paneme, põleema, sätima, tegutsema
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 2 lemmas as copulas (cop). Examples: olema, be.
- This corpus uses 10 lemmas as auxiliaries (aux). Examples: ei, olema, pidama, võima, saama, ära, tunduma, tohtima, do, näima.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN (21)
- VERB-Fin--NOUN-Nom (1504)
- VERB-Fin--NOUN-Par (249)
- VERB-Fin--PRON (1)
- VERB-Fin--PRON-Nom (1713)
- VERB-Fin--PRON-Par (52)
- VERB-Inf--NOUN (3)
- VERB-Inf--NOUN-Gen (2)
- VERB-Inf--NOUN-Nom (77)
- VERB-Inf--NOUN-Par (6)
- VERB-Inf--PRON-Nom (85)
- VERB-Inf--PRON-Par (3)
- VERB-Part--NOUN (1)
- VERB-Part--NOUN-Nom (122)
- VERB-Part--NOUN-Par (19)
- VERB-Part--PRON-Nom (184)
- VERB-Part--PRON-Par (5)
- VERB-Sup--NOUN (1)
- VERB-Sup--NOUN-Nom (59)
- VERB-Sup--NOUN-Par (2)
- VERB-Sup--PRON-Nom (60)
- VERB-Sup--PRON-Par (2)
- obj
- VERB-Conv--NOUN-Gen (6)
- VERB-Conv--NOUN-Nom (4)
- VERB-Conv--NOUN-Par (48)
- VERB-Conv--PRON-Nom (2)
- VERB-Conv--PRON-Par (7)
- VERB-Fin--NOUN (17)
- VERB-Fin--NOUN-Gen (356)
- VERB-Fin--NOUN-Gen-ADP(üle) (1)
- VERB-Fin--NOUN-Nom (210)
- VERB-Fin--NOUN-Par (1021)
- VERB-Fin--NOUN-Par-ADP(mööda) (1)
- VERB-Fin--PRON-Acc (1)
- VERB-Fin--PRON-Gen (43)
- VERB-Fin--PRON-Nom (69)
- VERB-Fin--PRON-Par (472)
- VERB-Inf--NOUN (7)
- VERB-Inf--NOUN-Gen (70)
- VERB-Inf--NOUN-Gen-ADP(of) (1)
- VERB-Inf--NOUN-Nom (158)
- VERB-Inf--NOUN-Par (518)
- VERB-Inf--NOUN-Par-ADP(of) (1)
- VERB-Inf--PRON-Gen (4)
- VERB-Inf--PRON-Nom (25)
- VERB-Inf--PRON-Par (237)
- VERB-Part--NOUN (6)
- VERB-Part--NOUN-Gen (52)
- VERB-Part--NOUN-Nom (121)
- VERB-Part--NOUN-Par (137)
- VERB-Part--PRON-Gen (7)
- VERB-Part--PRON-Nom (51)
- VERB-Part--PRON-Par (55)
- VERB-Sup--NOUN-Gen (26)
- VERB-Sup--NOUN-Nom (8)
- VERB-Sup--NOUN-Par (169)
- VERB-Sup--PRON-Gen (5)
- VERB-Sup--PRON-Nom (6)
- VERB-Sup--PRON-Par (53)
Verbs with Reflexive Core Objects
- This corpus contains 42 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: tundma ennast, tundma end, pidama ennast, tapma end, tegema end, hindama ennast, hõõruma ennast, ilmutama ennast, kahjustama iseennast, kaitsma ennast, koguma ennast, külima ennast, külvama ennast, laskma end, leidma ennast, liigitama ennast, logima ennast, lohutama end, lülitama ennast, nimetama end, nimetav end, närima ennast, panema ennast, parandama ennast, pidama end, pidav end, pistma ennast, puhastama end, päästma end, registreerima end, rivistama ennast, siduma end, sundima end, süüdistama ennast, tegema iseend, tervendama end, tutvustama ennast, vedama end, vedama ennast, väitma end, väljendama end, ärritama ennast
Relations Overview
- This corpus uses 8 relation subtypes: acl:relcl, cc:preconj, compound:prt, csubj:cop, flat:foreign, nmod:poss, nsubj:cop, obl:agent
- The following 4 relation types are not used in this corpus at all: iobj, expl, dislocated, clf