UD Portuguese Porttinari
Language: Portuguese (code: pt
)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.13 release.
The following people have contributed to making this treebank part of UD: Magali Sanches Duran, Lucelene Lopes, Maria das Graças Volpe Nunes, Thiago Alexandre Salgueiro Pardo.
Repository: UD_Portuguese-Porttinari
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY 4.0
Genre: news
Questions, comments? General annotation questions (either Portuguese-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [taspardo (æt) icmc • usp • br]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | annotated manually |
UPOS | annotated manually, natively in UD style |
XPOS | not available |
Features | annotated manually, natively in UD style |
Relations | annotated manually, natively in UD style |
Description
Porttinari-base (Duran et al., 2023) is the journalistic portion of Porttinari (which stands for “PORTuguese Treebank”), which shall be a large multigenre treebank for Portuguese (Pardo et al., 2021), following the “Universal Dependencies” international grammar framework (de Marneffe et al., 2021).
Porttinari-base (Duran et al., 2023) is the journalistic portion of Porttinari (which stands for “PORTuguese Treebank”), which shall be a large multigenre treebank for Portuguese (Pardo et al., 2021), following the “Universal Dependencies” international grammar framework (de Marneffe et al., 2021).
As reported by Duran et al., (2023), Porttinari is currently composed by three subcorpora with different characteristics and purposes:
-
Porttinari-base (released here), a corpus that is manually revised in detail to serve as gold standard (divided into training, development and test folds), with average annotation review agreement (kappa) of 97.8% and 96.2% for part of speech tags and dependency relations, respectively;
-
Porttinari-check, a small corpus structurally similar to Porttinari-base to serve as testbed for additional and diversified evaluations and to illustrate the contrast between manual and automatic annotations;
-
Porttinari-automatic, a very large corpus that was automatically annotated by a state of the art parser trained on Porttinari-base.
The texts in the treebank are from Folha de São Paulo newspaper, which are publicly available at Kaggle website. Overall, the journalistc portion of Porttinari includes 167,048 news articles, with 3,964,321 sentences and 94,646,080 tokens, which are distributed in the subcorpora as follows.
For the interested reader, Porttinari-check and Porttinari-automatic, as well as other related information, may be accessed at https://sites.google.com/icmc.usp.br/poetisa/porttinari.
Acknowledgments
This work was carried out at the Center for Artificial Intelligence of the University of São Paulo (C4AI - http://c4ai.inova.usp.br/), with support by the São Paulo Research Foundation (FAPESP grant #2019/07665-4) and by the IBM Corporation. The project was also supported by the Ministry of Science, Technology, and Innovation, with resources of Law N. 8.248, of October 23, 1991, within the scope of PPI-SOFTEX, coordinated by Softex and published as Residence in TIC 13, DOU 01245.010222/2022-44.
References
-
Duran, M.S.; Lopes, L.; Nunes, M.G.V.; Pardo, T.A.S. (2023). The Dawn of the Porttinari Multigenre Treebank: Introducing its Journalistic Portion. In the Proceedings of the 14th Symposium in Information and Human Language Technology (STIL), pp. 115-124. September, 25-29. pdf
-
Pardo, T.A.S.; Duran, M.S.; Lopes, L.; Di Felippo, A.; Roman, N.T.; Nunes, M.G.V. (2021). Porttinari - a large multi-genre treebank for brazilian portuguese. In the Proceedings of the XIII Symposium in Information and Human Language (STIL), pp. 1-10. November, 29 to December, 3. pdf
Statistics of UD Portuguese Porttinari
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
Abbr – Case – Definite – Foreign – Gender – Mood – Number – NumType – Person – Poss – PronType – Tense – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advmod – amod – appos – aux – aux:pass – case – cc – ccomp – ccomp:speech – conj – cop – csubj – csubj:outer – csubj:pass – det – discourse – dislocated – expl – expl:impers – fixed – flat – flat:foreign – flat:name – iobj – list – mark – nmod – nsubj – nsubj:outer – nsubj:pass – nummod – obj – obl – obl:agent – orphan – parataxis – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 8418 sentences, 157490 tokens and 168080 syntactic words.
- This corpus contains 31009 tokens (20%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 386 types of words that contain both letters and punctuation. Examples: ex-presidente, segunda-feira, ex-ministro, quinta-feira, sexta-feira, vice-presidente, sr., e-mail, J&F, Procuradoria-Geral, St., procurador-geral, Atlético-GO, centro-americanos, ex-procurador, on-line, porta-voz, quarta-feira, Jr., procuradora-geral, tel., Rio-2016, ex-governador, ex-prefeito, força-tarefa, meio-campo, má-fé, norte-americano, norte-coreano, primeiro-ministro, pré-candidato, sex., Dr., Jong-un, PUC-Rio, S., Social-Democrata, ar-condicionado, dom., ex-diretor, hip-hop, km/h, latino-americanos, matéria-prima, norte-americana, nova-iorquinos, segundas-feiras, start-up, sáb., terça-feira
- This corpus contains 10590 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 271 types of multi-word tokens. Examples: do, da, no, na, dos, ao, das, à, nos, pelo, pela, nas, aos, às, neste, nesta, pelos, deste, deles, disso, desse, nesse, dele, num, desta, pelas, dessa, numa, delas, desses, consigo, dessas, dela, nessa, daqui, daí, nele, naquele, nessas, nisso, tornou-se, naquela, nesses, pode-se, comigo, nela, trata-se, daquelas, daquele, destes.
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus does not use the following tags: PART
- This corpus contains 48 lemmas tagged as pronouns (PRON): algo, algum, alguém, ambos, aquele, aquilo, cada, demais, ele, esse, este, eu, isso, isto, lhe, lo, me, mesmo, meu, mim, muito, nada, nenhum, ninguém, nos, nosso, nós, o, outro, pouco, qual, qualquer, quanto, que, quem, quê, se, seu, si, tal, tanto, te, todo, tu, tudo, um, você, vários
- This corpus contains 31 lemmas tagged as determiners (DET): algum, ambos, aquele, cada, certo, certos, cujo, demais, diversos, esse, este, inúmeros, mais, menos, mesmo, meu, nenhum, nosso, o, outro, próprio, qual, qualquer, quanto, que, seu, tal, tanto, todo, um, vários
- Out of the above, 23 lemmas occurred sometimes as PRON and sometimes as DET: algum, ambos, aquele, cada, demais, esse, este, mesmo, meu, nenhum, nosso, o, outro, qual, qualquer, quanto, que, seu, tal, tanto, todo, um, vários
- This corpus contains 6 lemmas tagged as auxiliaries (AUX): estar, haver, ir, ser, ter, vir
- Out of the above, 5 lemmas occurred sometimes as AUX and sometimes as VERB: haver, ir, ser, ter, vir
- There are 4 (de)verbal forms:
- Fin
- AUX: é, foi, está, são, era, foram, será, estão, estava, vai
- VERB: diz, tem, há, disse, pode, afirma, deve, teve, afirmou, tinha
- Ger
- AUX: sendo, tendo, estando
- VERB: fazendo, dizendo, acontecendo, incluindo, usando, trabalhando, dando, deixando, envolvendo, tomando
- Inf
- AUX: ser, ter, estar, serem, ir, terem, estarem, sermos, vir
- VERB: fazer, ter, ver, dar, partir, ficar, dizer, chegar, entender, mudar
- Part
- ADJ: passado, passada, errado, premiada, preso, aberta, privado, aberto, elevada, presos
- AUX: sido
- VERB: feito, feita, devido, feitas, usado, visto, apresentado, chamado, conhecido, preso
Nominal Features
- Fem
- ADJ: primeira, nova, brasileira, segunda, muitas, última, política, boa, novas, pública
- ADJ-Part: passada, premiada, aberta, elevada, privadas, adequada, conhecida, fechada, premiadas, privada
- DET: a, as, uma, sua, essa, esta, suas, essas, minha, outras
- NOUN: pessoas, vez, parte, empresa, casa, cidade, história, empresas, gente, forma
- NUM: uma, duas, meia
- PRON: ela, a, elas, as, essa, la, esta, algumas, outra, outras
- VERB-Part: feita, feitas, realizada, procurada, chamada, criada, seguida, usadas, considerada, dada
- Masc
- ADJ: novo, primeiro, últimos, segundo, muitos, bom, preciso, passado, último, brasileiro
- ADJ-Part: passado, errado, preso, privado, aberto, presos, acelerado, conhecidos, dispostos, equilibrado
- AUX-Part: sido
- DET: o, os, um, seu, esse, este, seus, outros, mesmo, todos
- NOUN: anos, ano, dia, país, tempo, governo, mercado, caso, mundo, acordo
- NUM: um, dois, meio
- PRON: o, ele, isso, eles, os, nada, algo, lo, outro, um
- VERB-Part: feito, devido, usado, visto, apresentado, chamado, conhecido, preso, recebido, apontado
- Plur
- ADJ: sociais, grandes, últimos, maiores, diferentes, principais, muitos, muitas, importantes, anteriores
- ADJ-Part: presos, privadas, conhecidos, dispostos, premiadas, supostos, abertas, animados, avançadas, fechadas
- AUX-Fin: são, foram, estão, serão, estamos, eram, vão, estavam, vamos, haviam
- AUX-Inf: serem, terem, estarem, sermos
- DET: os, as, seus, suas, outros, todos, essas, esses, outras, alguns
- NOUN: anos, pessoas, dias, empresas, milhões, meses, vezes, bilhões, clientes, pontos
- PRON: eles, os, nos, elas, nós, as, todos, outros, muitos, alguns
- VERB-Fin: podem, têm, temos, devem, tiveram, dizem, passaram, querem, ficaram, tinham
- VERB-Inf: termos, chegarem, crescerem, oferecerem, parecerem, tentarem, terem, acharem, acompanharem, adaptarem
- VERB-Part: feitas, feitos, ouvidos, chamados, usadas, vendidos, pagos, publicadas, registrados, afetados
- Sing
- ADJ: maior, grande, melhor, possível, primeira, importante, difícil, novo, primeiro, principal
- ADJ-Part: passado, passada, errado, premiada, preso, aberta, privado, aberto, elevada, acelerado
- AUX-Fin: é, foi, está, era, será, estava, vai, seria, seja, tem
- AUX-Inf: ser, estar, ter
- AUX-Part: sido
- DET: o, a, um, uma, sua, seu, esse, essa, este, esta
- NOUN: presidente, ano, dia, país, vez, tempo, parte, governo, empresa, casa
- PRON: o, ele, isso, ela, eu, a, me, você, nada, algo
- VERB-Fin: diz, tem, há, disse, pode, afirma, deve, teve, afirmou, tinha
- VERB-Inf: ficar, sair, começar, virar, apresentar, atingir, entrar, livrar, receber, trabalhar
- VERB-Part: feito, feita, devido, usado, visto, apresentado, chamado, conhecido, preso, recebido
- Acc
- PRON: o, lo, me, nos, se, a, la, los, os, as
- Dat
- PRON: me, mim, si, nos, lhe, se, lhes, te
- Nom
- PRON: se, ele, ela, eu, eles, você, elas, nós, vocês, Tu
- Def
- DET: o, a, os, as
- Ind
- DET: um, uma, uns, umas
Degree and Polarity
Verbal Features
- Cnd
- AUX-Fin: seria, teria, seriam, estaria, teriam, iria, estariam, iriam, viria
- VERB-Fin: deveria, poderia, poderiam, teria, teriam, diria, levaria, deveriam, fariam, ficaria
- Imp
- VERB-Fin: confira, olhe, Corra, Desculpe, beija, olha, usemos, veja, Acompanhemos, Acrescente
- Ind
- AUX-Fin: é, foi, está, são, era, foram, será, estão, estava, vai
- VERB-Fin: diz, tem, há, disse, pode, afirma, deve, teve, afirmou, tinha
- Sub
- AUX-Fin: seja, fosse, tenha, for, sejam, fossem, tivesse, esteja, forem, estejam
- VERB-Fin: quiser, haja, possam, veja, possa, pudesse, tenha, tenham, tivesse, houver
- Fut
- AUX-Fin: será, serão, for, estará, irá, forem, estiver, estarão, irão, terá
- VERB-Fin: terá, poderá, quiser, terão, deverá, haverá, houver, fará, tiver, ficará
- Imp
- AUX-Fin: era, estava, havia, eram, estavam, haviam, tinha, tinham, vinha, ia
- VERB-Fin: tinha, havia, fazia, queria, tinham, sabia, dizia, podia, chegava, dava
- Past
- AUX-Fin: foi, foram, fosse, fui, esteve, fossem, tivesse, estiveram, estivesse, tivessem
- VERB-Fin: disse, teve, afirmou, fez, começou, ficou, houve, chegou, passou, deu
- Pqp
- VERB-Fin: abandonara, acabara, aconteceram, afirmaram, anunciaram, aprendera, comprara, deixara, enviara, evoluíram
- Pres
- AUX-Fin: é, está, são, estão, vai, seja, tem, estamos, estou, vão
- VERB-Fin: diz, tem, há, pode, afirma, deve, faz, podem, têm, conta
- Pass
- VERB-Part: feito, feita, feitas, realizada, chamado, conhecido, considerado, criado, formado, preso
Pronouns, Determiners, Quantifiers
- Art
- DET: o, a, os, as, um, uma, uns, umas
- Dem
- DET: esse, essa, este, esta, mesmo, essas, esses, mesma, aquele, aquela
- PRON: o, isso, a, os, as, essa, esse, aquilo, esta, isto
- Ind
- DET: mais, cada, outros, todos, todo, outro, outras, qualquer, alguns, algumas
- PRON: quem, tudo, nada, algo, ninguém, outro, um, todos, alguém, outros
- Int
- DET: quais, qual
- PRON: que, quem, qual, quê, quais
- Prs
- DET: sua, seu, seus, suas, minha, meu, nossa, nosso, nossos, meus
- PRON: se, ele, ela, eu, eles, me, você, nos, elas, nós
- Rel
- DET: cuja, cujo, cujas, cujos
- PRON: que, quem, qual, quais
- Card
- NUM: três, mil, um, dois, uma, 20, quatro, 30, 2016, 2018
- Frac
- NUM: meia, meio
- Ord
- ADJ: primeira, primeiro, segundo, segunda, terceiro, 1º, terceira, primeiros, primeiras, quarta
- Yes
- DET: sua, seu, seus, suas, minha, meu, nossa, nosso, nossos, meus
- PRON: seu, meu, nosso, sua, nossa, minhas, nossos, seus
- 1
- AUX-Fin: estamos, estou, vamos, sou, fui, somos, vou, estava, era, temos
- AUX-Inf: sermos
- DET: minha, meu, nossa, nosso, nossos, meus, nossas, minhas
- PRON: eu, me, nos, nós, mim, meu, nosso, nossa, minhas, nossos
- VERB-Fin: consigo, temos, tenho, quero, acho, sei, vejo, posso, vi, queremos
- VERB-Inf: termos, entendermos, escrevermos, expressarmos, haver, irmos, lavarmos, lembrarmos, profissionalizarmos
- 2
- PRON: você, vocês, te, Tu
- VERB-Fin: beija, olha, Experimenta, Para, Taca, mexe, quebra
- 3
- AUX-Fin: é, foi, está, são, era, foram, será, estão, vai, estava
- AUX-Inf: serem, terem, estarem, ser, estar, ter
- DET: sua, seu, seus, suas
- PRON: se, o, ele, ela, eles, a, os, elas, as, lo
- VERB-Fin: diz, tem, há, disse, pode, afirma, deve, teve, afirmou, faz
- VERB-Inf: ficar, sair, começar, virar, apresentar, atingir, chegarem, crescerem, entrar, livrar
Other Features
- Abbr
- Yes
- ADJ: Tadinhos
- ADP: pra, s/
- ADV: civil, cultural
- AUX-Fin: tá, tava, tô, vamo
- NOUN: segunda, quarta, sexta, quinta, sr., terça, km, tel., min, nº
- Yes
- Foreign
- Yes
- ADJ: off-line, on-line, habitués, premium, gospel, workaholic
- NOUN: internet, e-mail, fintechs, deficit, chef, hits, recall, funk, hip-hop, publisher
- X: bitcoin, car, safety, ale, bitcoins, pale, rohingyas, capita, corpus, country
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 2 lemmas as copulas (cop). Examples: ser, estar.
- This corpus uses 6 lemmas as auxiliaries (aux). Examples: ter, ir, estar, haver, vir, ser.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: ser.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN (3390)
- VERB-Fin--NOUN-ADP(de) (1)
- VERB-Fin--PRON (1386)
- VERB-Fin--PRON-Nom (777)
- VERB-Ger--NOUN (80)
- VERB-Ger--PRON (40)
- VERB-Ger--PRON-Nom (23)
- VERB-Inf--NOUN (156)
- VERB-Inf--PRON (48)
- VERB-Inf--PRON-Nom (45)
- VERB-Part--NOUN (120)
- VERB-Part--NOUN-ADP(a) (1)
- VERB-Part--PRON (32)
- VERB-Part--PRON-Nom (21)
- obj
- VERB-Fin--NOUN (3611)
- VERB-Fin--PRON (424)
- VERB-Fin--PRON-Acc (155)
- VERB-Fin--PRON-Dat (14)
- VERB-Fin--PRON-Nom (5)
- VERB-Ger--NOUN (289)
- VERB-Ger--PRON (38)
- VERB-Ger--PRON-Acc (11)
- VERB-Inf--NOUN (1792)
- VERB-Inf--PRON (121)
- VERB-Inf--PRON-Acc (122)
- VERB-Inf--PRON-Dat (6)
- VERB-Inf--PRON-Nom (1)
- VERB-Part--NOUN (147)
- VERB-Part--PRON (11)
- VERB-Part--PRON-Acc (1)
- VERB-Part--PRON-Dat (1)
- iobj
- VERB-Fin--PRON-Dat (73)
- VERB-Ger--PRON-Dat (3)
- VERB-Inf--PRON-Dat (17)
- VERB-Part--PRON-Dat (3)
Relations Overview
- This corpus uses 11 relation subtypes: acl:relcl, aux:pass, ccomp:speech, csubj:outer, csubj:pass, expl:impers, flat:foreign, flat:name, nsubj:outer, nsubj:pass, obl:agent
- The following 4 relation types are not used in this corpus at all: clf, compound, goeswith, dep