UD Romanian TueCL
Language: Romanian (code: ro
)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.14 release.
The following people have contributed to making this treebank part of UD: Diana Hoefels, Çağrı Çöltekin.
Repository: UD_Romanian-TueCL
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: social
Questions, comments? General annotation questions (either Romanian-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [diana-constantina • hoefels (æt) student • uni-tuebingen • de or diana • hoefels (æt) gmail • com, cagri • coeltekin (æt) uni-tuebingen • de]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | annotated manually |
UPOS | annotated manually, natively in UD style |
XPOS | not available |
Features | annotated manually, natively in UD style |
Relations | annotated manually, natively in UD style |
Description
The Romanian Social Media Sexist Language UD Treebank is a reference treebank in Universal Dependencies (UD) format for Romanian sexist language. Currently small, it comprises a subset of tweets sourced from CoRoSeOf.
The Romanian Social Media Sexist Language UD Treebank is a specialized linguistic resource focused on analyzing sexist language in Romanian social media. It contains 210 annotated tweets selected from CoRoSeOf, providing a unique insight into social media discourse. As part of the UD_Romanian-TueCL project, it fills a significant gap in Romanian linguistic resources by being the first UD treebank to specifically address sexist language in the social media genre. The project is work-in-progress and the treebank is being updated on a regular basis.
Acknowledgments
The creation of this treebank was made possible through the initiative of Dr. Çağrı Çöltekin, lecturer @University of Tuebingen, as part of a course project focused on low-resourced languages. While Romanian is not a low-resourced language, it lacked a UD-compliant social media corpus. Diana C. Hoefels constructed and annotated the corpus, while Dr. Çağrı Çöltekin provided reviewing, consultation on the guidelines, and authored the documentation.
References
- For a quantative and qualitative analysis of the sourced samples, refer to CoRoSeOf - An Annotated Corpus of Romanian Sexist and Offensive Tweets.
Statistics of UD Romanian TueCL
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
Abbr – AdpType – Case – Definite – Degree – Foreign – Gender – Mood – Number – Number[psor] – NumForm – NumType – PartType – Person – Polarity – Position – Poss – PronType – Reflex – Strength – Tense – Typo – Variant – VerbForm
Relations
acl – advcl – advcl:tcl – advmod – advmod:tmod – amod – appos – aux – aux:pass – case – cc – cc:preconj – ccomp – ccomp:pmod – compound – conj – cop – csubj – dep – det – discourse – discourse:emo – expl – expl:pass – expl:poss – expl:pv – fixed – flat – goeswith – iobj – list – mark – nmod – nsubj – nsubj:pass – nummod – obj – obl – obl:agent – obl:pmod – obl:tmod – orphan – parataxis – punct – reparandum – root – vocative – vocative:mention – xcomp
Tokenization and Word Segmentation
- This corpus contains 210 sentences and 4417 tokens.
- This corpus contains 600 tokens (14%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 43 types of words that contain both letters and punctuation. Examples: @Utilizator_fem, -o, într-, @Utilizator_fem1, @Utilizator_fem2, n-, s-, -mi, i-, m-, mi-, te-, -i, -ți, @Utilizator_x, @Utilizator_x1, @Utlizator_fem, @Utlizator_x, Ne-, f*te, pă’, unu', #viol, -AI, -mă, :D, :p, @KlausIohannis, @Utilizator_fem3, @Utilizator_x2, @Utilizator_x3, @Utilzator_x, BMW-uri, Cluj-Napoca, Utilizator_x2, cur\/ă, dracu', ne-futută, p*la, să-, top-uri, v-, ți-
Morphology
Tags
- This corpus uses 17 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus contains 8 word types tagged as particles (PART): a, n, n-, nu, s-, sa, să, să-
- This corpus contains 35 lemmas tagged as pronouns (PRON): I, acela, acest, acesta, alt, altul, asta, atât, care, ce, cel, celălalt, ceva, cineva, ea, el, eu, lui, mult, mă, niciunul, nimeni, nimic, orice, se, sine, te, tine, tot, tu, tău, unu, unul, ăla, și
- This corpus contains 30 lemmas tagged as determiners (DET): acela, același, acest, acesta, al, alt, anumit, atât, ce, cel, cât, câteva, câtva, el, fiecare, lui, meu, mult, nici_un, niciun, niște, o, orice, puțin, tot, tu, tău, un, unul, ăst
- Out of the above, 15 lemmas occurred sometimes as PRON and sometimes as DET: acela, acest, acesta, alt, atât, ce, cel, el, lui, mult, orice, tot, tu, tău, unul
- This corpus contains 4 lemmas tagged as auxiliaries (AUX): avea, be, fi, vrea
- Out of the above, 3 lemmas occurred sometimes as AUX and sometimes as VERB: avea, fi, vrea
- There are 4 (de)verbal forms:
- Fin
- AUX: e, ești, sunt, este, esti, era, fie, fii, -i, fim
- VERB: au, are, dau, știu, face, fac, fierbe, uite, e, faci
- Ger
- AUX: fiind, Find
- VERB: alăptând, având, venind, zicând
- Inf
- AUX: fi
- VERB: vrea, avea, da, afirma, băga, demasca, dori, f*te, face, fute
- Part
- AUX: fost
- VERB: spus, zis, ajuns, facut, dat, văzut, apucat, făcut, obligat, trimis
Nominal Features
- Fem
- ADJ: frumoasă, frumoasa, bună, dulce, urâtă, drăguță, existente, feministe, ieftină, rece
- DET: o, mea, toate, asta, ta, alea, multe, această, alte, cea
- NOUN: femeie, femeia, femeile, femei, fetele, fată, femeii, fete, iubire, mamă
- NUM: prima
- PRON: o, -o, ea, asta, le, una, aia, ele, toate, Nici
- PROPN: Elenei, Ezada, Maica, Marea, Sinn
- VERB-Part: apucat, venit, zis, Sustinuta, agresată, ajuns, auzit, avut, batut, castigat
- Masc
- ADJ: DULCI, misogini, FRUMOȘI, atent, libidinoși, misogin, sexual, superb, șocant, Apetisant
- AUX-Part: fost
- DET: un, mulți, a, acestui, toți, unui, acest, al, asta, cel
- NOUN: bărbat, PUPICI, bărbatul, bărbații, barbat, bărbați, fund, bărbaților, bani, sutien
- NUM: doi, amândoi, doua, trei
- PRON: el, unu, îl, mulți, altul, astia, unu', unul, Ala, altu
- PROPN: Doamne
- VERB-Part: spus, ajuns, dat, facut, zis, făcut, obligat, văzut, înțeles, PERMIS
- Plur
- ADJ: DULCI, misogini, FRUMOȘI, existente, feministe, frumoase, libidinoși, scurte, Blestemate, FRUMOSE
- AUX: sunt, au, am, ați, fim, ar, ati, s, sunteți, Îs
- AUX-Fin: sunt, fim, s, sunteți, Îs
- DET: toate, multe, mulți, alea, toți, alte, astea, cele, câte, câteva
- NOUN: femeile, femei, fetele, PUPICI, bărbații, bărbați, bărbaților, bani, fete, banii
- NUM: doi, amândoi, doua, trei
- PRON: le, noi, voi, ne, ele, mulți, va, Ne-, astia, tale
- PROPN: BMW-uri
- VERB-Fin: au, dau, fac, pot, aud, avem, sunt, facem, iau, ling
- VERB-Part: ajuns, conduși, considerate, denigrați, dilit, legate, omorâte, pedepsiți, pieptănat, produşi
- Sing
- ADJ: frumoasă, frumoasa, bună, mare, dulce, urâtă, atent, cuminte, drăguță, frumos
- ADV: nimic
- AUX: e, a, ești, este, ai, esti, am, aș, era, fost
- AUX-Fin: e, ești, este, esti, era, fii, -i, fiu, are, erai
- AUX-Part: fost
- DET: o, un, asta, mea, ta, unui, acestui, al, a, această
- NOUN: femeie, femeia, bărbat, bărbatul, fată, barbat, fund, femeii, iubire, mamă
- NUM: 10, 2, 3, 9, 1, 112, 12, 12000, 2,5, 20
- PRON: te, eu, tine, mine, mă, o, îți, -o, îmi, el
- PROPN: Doamne, Elenei, Ezada, Maica, Marea, Sinn
- VERB: are, face, fierbe, spus, zis, știu, ai, am, e, faci
- VERB-Fin: are, face, fierbe, știu, e, faci, ia, poate, uite, vrei
- VERB-Part: spus, zis, facut, ajuns, dat, văzut, apucat, făcut, obligat, trimis
- Acc
- ADJ: imens, scurți
- ADP: de, la, cu, în, pe, in, din, pentru, ca, după
- DET: O
- NOUN: buzele, cauciuc, decolteu, pantaloni
- PRON: se, te, tine, mine, mă, o, -o, le, m-, ne
- Acc,Nom
- ADJ: frumoasă, frumoasa, bună, urâtă, drăguță, dulce, ieftină, rece, superbă, Superba
- ADV: ce, nimic
- DET: o, un, asta, mea, toate, ta, ce, alea, toți, această
- NOUN: femeie, femeia, femeile, fetele, bărbatul, bărbații, fată, iubire, mamă, minte
- NUM: amândoi, prima
- PRON: ce, care, el, asta, ea, nimic, noi, una, unu, voi
- PROPN: Ezada, Maica, Marea, Sinn
- Dat
- PRON: îți, îmi, -mi, i-, mi-, isi, îi, își, -ți, i
- Dat,Gen
- ADJ: ascultătoare, neajutorate, propriilor, sexuale, slabe
- DET: unui, acestui, unei, lui, unor
- NOUN: bărbaților, femeii, femeilor, Apărării, Ipocritilor, amenintatilor, anului, criminalului, educației, feminismului
- PRON: lui
- PROPN: Elenei
- Gen
- ADP: asupra, impotriva
- Nom
- ADJ: DULCI
- NOUN: PUPICI, Felul, sarmale
- PRON: eu, tu, i
- Voc
- ADJ: frumușico
- NOUN: doamne, mami
- PROPN: Doamne
- Def
- ADJ: fosta, frumușico, grasele, propriilor, scurți, simplul
- DET: lui
- NOUN: femeia, femeile, fetele, bărbatul, bărbații, bărbaților, femeii, apa, sânii, Diavolul
- NUM: prima
- PROPN: Doamne, Elenei, Ezada, Maica, Marea, Sinn
- Ind
- ADJ: DULCI, frumoasă, frumoasa, bună, mare, misogini, FRUMOȘI, dulce, urâtă, atent
- NOUN: femeie, femei, bărbat, PUPICI, fată, barbat, bărbați, fund, bani, fete
Degree and Polarity
- Pos
- ADJ: frumoasă, frumoasa, bună, așa, mare, misogini, FRUMOȘI, sexy, urâtă, atent
- ADV: doar, bine, așa, chiar, acum, numai, tot, asa, acasă, atât
- NOUN: frumoasă, prostituată, angajată, barbat, curva, curve, curvă, public, regină, sexy
- Sup
- ADJ: FOC, perfecte, perfectă, perfecți
- Neg
- ADV: nu
- PART: nu, n-, n
- Pos
- CCONJ: și, si, dar, iar, sau, şi, da
- SCONJ: că, ca, dacă, până, daca, deși, încât, decât, fiindcă, ptc
- Short
- ADP: într-, Intr
- AUX-Fin: -i, s
- PART: n-, n, s-
- PRON: -o, m-, mi-, te-, -mi, i-, s-, Ne-, i, te
Verbal Features
- Imp
- VERB-Fin: ia, uite, Lasă, arată, bagati, fereste, treziti, trust, uitati
- Ind
- AUX-Fin: e, ești, sunt, este, esti, era, -i, are, erai, ii
- VERB-Fin: au, are, știu, dau, face, fac, fierbe, e, faci, poate
- Sub
- AUX-Fin: fie, fii, fim, fiu
- PART: să, sa, s-, să-
- VERB-Fin: injure, vorbească, zică, AGRESEZE, BATA, adore, aiba, ajute, alăpteze, asculte
- Imp
- AUX-Fin: era, erai
- VERB-Fin: mergeam, vrea, era, râdeau, zicea, TREBUIA, Tineti, aveam, bagamias, cred
- Past
- VERB-Fin: Uite, acuză, caca, cared, dădea, pățeau, sare, umple
- Pqp
- VERB-Fin: Incepuse, Văzusem, abonase, uitasem
- Pres
- AUX-Fin: e, ești, sunt, este, esti, fie, fii, -i, fim, fiu
- AUX-Inf: fi
- VERB-Fin: au, are, dau, știu, face, fac, fierbe, e, faci, poate
- VERB-Inf: vrea, avea, da, afirma, băga, demasca, dori, f*te, face, fute
Pronouns, Determiners, Quantifiers
- Art
- DET: lui, o
- Dem
- DET: asta, acestui, alea, această, acest, astea, cea, cel, cele, ăsta
- PRON: asta, aia, astia, Ala, aceea, acestea, ceea, cei, ceilalti, ceilalți
- Ind
- DET: o, un, toate, mulți, multe, unui, toți, alte, câteva, niste
- PRON: una, unu, mulți, altul, ceva, cineva, toate, unu', unul, altu
- Int,Rel
- ADV: cum, când, cât, unde, cand, aşa, ce, oare, Cat
- DET: ce, câte
- PRON: ce, care
- Neg
- ADV: nici, niciodata, nimic
- DET: niciun, nicio
- PRON: nimic, nimeni, Nici
- Prs
- DET: mea, ta, lor, a, al, ei, lui, tău, O, meu
- PRON: se, te, eu, tine, mine, mă, o, îți, -o, îmi
- Tot
- NUM: amândoi
- Card
- NUM: 10, 2, 3, 9, doi, 1, 112, 12, 12000, 2,5
- Ord
- NUM: prima, întâi
- Yes
- DET: mea, ta, lor, a, al, ei, lui, tău, meu, nostru
- PRON: tale, Ta, ei, lui
- Yes
- PRON: se, s-, isi, își, vă, și
- 1
- AUX: am, aș, as, fim, fiu, sunt
- AUX-Fin: fim, fiu, sunt
- DET: mea, meu, nostru, tai, tăi
- PRON: eu, mine, mă, îmi, noi, -mi, m-, mi-, ne, ma
- VERB: știu, ador, am, avem, fac, mergeam, stiu, Sper, dau, facem
- VERB-Fin: știu, ador, avem, fac, mergeam, stiu, Sper, am, dau, facem
- 2
- AUX: ești, ai, esti, fii, ați, -AI, ati, erai, o, sunteți
- AUX-Fin: ești, esti, fii, erai, sunteți
- DET: ta, tău, tale, tau
- PRON: te, tine, îți, te-, tu, voi, va, -ți, iti, ti
- VERB: ai, faci, vrei, ești, uite, vezi, zici, articulezi, arăți, ia
- VERB-Fin: faci, vrei, ai, ești, uite, vezi, zici, articulezi, arăți, ia
- 3
- ADV: ce, nimic
- AUX: a, e, sunt, este, ar, era, au, fie, o, -i
- AUX-Fin: e, sunt, este, era, fie, -i, are, ii, s, Îs
- DET: asta, toate, mulți, ce, lor, multe, acestui, alea, ei, toți
- PRON: ce, se, care, o, -o, el, asta, ea, le, nimic
- VERB-Fin: au, are, face, dau, fierbe, e, poate, pot, trebuie, zice
- Plur
- DET: lor, nostru
- Sing
- DET: mea, ta, ei, lui, tău, meu, tai, tale, tau, tăi
- PRON: tale, Ta, ei, lui
Other Features
- Abbr
- Yes
- ADV: etc
- NOUN: Neața, poli
- PRON: mn, unu, unu'
- X: WTF, irl
- Yes
- AdpType
- Prep
- ADP: de, la, cu, în, pe, in, din, pentru, ca, după
- Prep
- Foreign
- Yes
- ADJ: hot, sexy, SEXSY, nesexy
- ADP: in
- NOUN: BITCH, BRO, MILFă, Schadenfreude, baby, butter, crop, extremis, football, girl
- PROPN: DisneyLand, Survivor, chefi, facebook, tiktok, youtube
- VERB-Fin: cared, trust
- VERB-Inf: say
- X: WTF, irl
- Yes
- NumForm
- Digit
- NUM: 10, 2, 3, 9, 1, 112, 12, 12000, 2,5, 20
- Word
- NUM: doi, doua, prima, trei, întâi
- Digit
- PartType
- Inf
- PART: a
- Inf
- Position
- Postnom
- DET: asta, alea, astea, ăsta
- Prenom
- DET: ce, acestui, această, acest, alte, niciun, aceleasi, alt, fiecare, nicio
- Postnom
- Strength
- Strong
- PRON: eu, tine, mine, el, ea, noi, voi, tu, ele, ei
- Weak
- PRON: se, te, mă, o, îți, -o, îmi, le, -mi, i-
- Strong
- Typo
- Yes
- ADJ: frumoasa, FRUMOSE, SEXSY, apetisanta, arsa, buna, ciudati, comunista, desteapta, divin
- ADP: in, dupa, ex, fara, intre, Intr, ca, fata, fu, impotriva
- ADV: asa, cand, niciodata, ca, decat, dupa, parca, Alaltaieri, Cat, MACAR
- AUX: esti, as, Find, ati, ii, o, s
- AUX-Fin: esti, ii, s
- AUX-Ger: Find
- CCONJ: si, da
- DET: asta, niste, aceleasi, tai, tau, unui
- NOUN: barbat, barbati, carucior, fata, fisa, soti, tarfa, viata, ESCORTA, FUNDULET
- NUM: 2,5, doua
- PART: sa, n
- PRON: isi, ma, va, astia, iti, te, ti, Ala, Nici, aia
- PROPN: Franta, parazitii, romania
- SCONJ: ca, daca, cand
- VERB-Fin: stiu, injure, vad, ACCEPTI, BATA, Incepuse, Intreb, MERITI, Multumesc, PERMITI
- VERB-Inf: lasa, tine
- VERB-Part: facut, Sustinuta, batut, castigat, gresit, linistit, ne-futută, saturat, tratata
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: fi.
- This corpus uses 4 lemmas as auxiliaries (aux). Examples: avea, vrea, fi, be.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: fi.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--PRON-Nom (1)
- VERB-Fin--NOUN (18)
- VERB-Fin--NOUN-Acc,Nom (73)
- VERB-Fin--PRON-Acc,Nom (44)
- VERB-Fin--PRON-Nom (11)
- VERB-Ger--NOUN-Acc,Nom (1)
- VERB-Inf--NOUN-Acc,Nom (1)
- VERB-Inf--PRON-Acc (1)
- VERB-Inf--PRON-Acc,Nom (6)
- VERB-Inf--PRON-Nom (2)
- VERB-Part--NOUN (3)
- VERB-Part--NOUN-Acc,Nom (16)
- VERB-Part--PRON-Acc,Nom (14)
- VERB-Part--PRON-Nom (2)
- obj
- VERB--NOUN (2)
- VERB-Fin--NOUN (37)
- VERB-Fin--NOUN-ADP(pe) (2)
- VERB-Fin--NOUN-Acc (1)
- VERB-Fin--NOUN-Acc,Nom (70)
- VERB-Fin--NOUN-Acc,Nom-ADP(pe) (2)
- VERB-Fin--NOUN-Nom (2)
- VERB-Fin--PRON-Acc (25)
- VERB-Fin--PRON-Acc,Nom (17)
- VERB-Fin--PRON-Acc,Nom-ADP(de) (1)
- VERB-Fin--PRON-Acc,Nom-ADP(pe) (3)
- VERB-Fin--PRON-Acc-ADP(pe) (1)
- VERB-Fin--PRON-Dat (2)
- VERB-Inf--NOUN (3)
- VERB-Inf--NOUN-ADP(pe) (1)
- VERB-Inf--NOUN-Acc,Nom (5)
- VERB-Inf--PRON-Acc (6)
- VERB-Inf--PRON-Acc,Nom (1)
- VERB-Part--NOUN (7)
- VERB-Part--NOUN-Acc,Nom (10)
- VERB-Part--NOUN-Acc,Nom-ADP(de) (1)
- VERB-Part--NOUN-Acc,Nom-ADP(pe) (3)
- VERB-Part--PRON-Acc (8)
- VERB-Part--PRON-Acc,Nom (2)
- VERB-Part--PRON-Acc,Nom-ADP(pe) (1)
- iobj
- VERB-Fin--NOUN (2)
- VERB-Fin--NOUN-Dat,Gen (4)
- VERB-Fin--PRON-Acc (5)
- VERB-Fin--PRON-Dat (27)
- VERB-Fin--PRON-Dat,Gen (1)
- VERB-Inf--PRON-Acc (1)
- VERB-Inf--PRON-Dat (3)
- VERB-Part--PRON-Dat (8)
Reflexive Verbs
- This corpus contains 46 lemmas that occur at least once with an expl:pv child. Examples: băga se, abona se, apuca s-, fute mă, holba se, topi mă, umple se, adora te, apropia ma, ascunde se, așeza te, aștepta te, conduce se, crede se, crede te, căca se, călugări s-, da mă, da ne, despărți se, distra te, duce se, enerva ma, evapora se, excita mă, exprima mă, hrăni te, linge te, lovi se, numi se, oferi se, pișa mă, pișa te, plânge vă, preda se, pune se, părea se, simți ne, sătura m-, topi s-, uita se, uita te, uite se, victimiza te, țin se, ține se
Reflexive Passive
- This corpus contains 1 lemmas that occur at least once with an expl:pass child. Examples: vedea se
Verbs with Reflexive Core Objects
- This corpus contains 1 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: pune își
Relations Overview
- This corpus uses 14 relation subtypes: advcl:tcl, advmod:tmod, aux:pass, cc:preconj, ccomp:pmod, discourse:emo, expl:pass, expl:poss, expl:pv, nsubj:pass, obl:agent, obl:pmod, obl:tmod, vocative:mention
- The following 2 relation types are not used in this corpus at all: dislocated, clf