UD Portuguese DANTEStocks
Language: Portuguese (code: pt
)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.15 release.
The following people have contributed to making this treebank part of UD: Ariani Di Felippo, Norton Trevisan Roman, Thiago Alexandre Salgueiro Pardo, Bryan Khelven da Silva Barbosa, Maria das Graças Volpe Nunes.
Repository: UD_Portuguese-DANTEStocks
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY 4.0
Genre: social
Questions, comments? General annotation questions (either Portuguese-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [ariani (æt) ufscar • br,norton (æt) usp • br,bryankhelven (æt) ieee • org]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | annotated manually |
UPOS | annotated manually, natively in UD style |
XPOS | not available |
Features | annotated manually, natively in UD style |
Relations | annotated manually, natively in UD style |
Description
DANTEStocks (Di Felippo et al., 2024) is a collection of Brazilian Portuguese tweets on the stock market domain that is part of Porttinari (“PORTuguese Treebank”), which shall be a large multigenre treebank for Portuguese (Pardo et al., 2021), following the “Universal Dependencies” framework (de Marneffe et al., 2021).
The corpus consists of 4,042 tweets and 80,997 tokens. To annotate the corpus according to UD, the entire tweet was taken as a basic unit of analysis, which means that the tweets were not segmented into smaller units as sentences, clauses or phrases. Besides, the tweets were not normalized, containing all phenomena typical to social media text in general and to Twitter in particular. Morphosyntactic (Silva et al., 2021; Di Felippo et al., 2023) and syntactic annotations (Di Felippo et al., 2024) were carried out through alternating steps of automatic processing and manual revision. For the interested reader, DANTEStocks, as well as other related information, may be accessed at Poetisa Project.
Acknowledgments
This work was carried out at the Center for Artificial Intelligence of the University of São Paulo (C4AI - c4ai.inova.usp.br), with support by the São Paulo Research Foundation (FAPESP grant #2019/07665-4) and by the IBM Corporation. The project was also supported by the Ministry of Science, Technology, and Innovation, with resources of Law N. 8.248, of October 23, 1991, within the scope of PPI-SOFTEX, coordinated by Softex and published as Residence in TIC 13, DOU 01245.010222/2022-44.
Statistics of UD Portuguese DANTEStocks
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
Abbr – Case – Definite – Foreign – Gender – Mood – Number – NumType – Person – Poss – PronType – Tense – Typo – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advmod – amod – appos – aux – aux:pass – case – cc – ccomp – ccomp:speech – conj – cop – csubj – dep – det – discourse – dislocated – expl – fixed – flat – flat:foreign – flat:name – goeswith – iobj – list – mark – nmod – nmod:tmod – nsubj – nsubj:outer – nsubj:pass – nummod – obj – obl – obl:agent – orphan – parataxis – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 4042 sentences, 77577 tokens and 80997 syntactic words.
- This corpus contains 18294 tokens (24%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 2293 types of words that contain both letters and punctuation. Examples: #petr4, #vale5, http://t.co/kgt1YiTbF7, #infomoney, @live_trade, c/, @ferrisss, #bbas3, p/, S.A., #ibov, #oibr4, #usim5, #PETR3, #MRVE3, http://t.co/zJRs3Eeyz9, @clubedopairico, #bovespa, #csna3, o.O, #petrobras, #itub4, @chrinvestor, ex-dividendos, #goll4, @petrobras, elet-n1, #jbss3, @garimpodeacoes, #KROT3, #abev3, #BBDC4, #BR, http://t.co/C7k4DuDID2, #elet3, @dfittarelli, centraltrader@hotmail.com, #elpl4, ago/e, @picapautrader, @tovaga, rent-nm, #MRFG3, #llxl3, @Smarttrade10, #ibovespa, sexta-feira, #Ichimoku, #alll3, #cmig4
- This corpus contains 3420 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 56 types of multi-word tokens. Examples: da, do, na, no, à, ao, dos, das, nos, aos, pelo, pela, neste, nas, nesta, nessa, às, daqui, desta, nesse, dela, dessa, num, pelos, pro, numa, nela, pelas, desse, deste, disso, daí, né, pra, nisso, naquela, nesses, dai, daquele, delas, deles, saber-se, QUEBRÁ-LA, a., aonde, contigo, d'água, dele, destes, dois.
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus does not use the following tags: PART
- This corpus contains 48 lemmas tagged as pronouns (PRON): algo, algum, alguém, ambos, aquele, aquilo, demais, ele, eles, esse, este, eu, isso, isto, lhe, lhes, lo, me, mesmo, meu, mim, muito, nada, nenhum, ninguém, nos, nosso, nós, o, outro, porque, pouco, qual, que, quem, quê, se, sem, seu, tal, te, ti, todo, tu, tudo, um, você, vocês
- This corpus contains 33 lemmas tagged as determiners (DET): a, algum, aquele, as, cada, d, de, demais, esse, este, mais, menos, mesmo, meu, muito, nenhum, nosso, o, outro, pouco, próprio, qual, qualquer, quanto, que, seu, tal, tanto, teu, todo, um, vário, vários
- Out of the above, 19 lemmas occurred sometimes as PRON and sometimes as DET: algum, aquele, demais, esse, este, mesmo, meu, muito, nenhum, nosso, o, outro, pouco, qual, que, seu, tal, todo, um
- This corpus contains 8 lemmas tagged as auxiliaries (AUX): dever, estar, haver, ir, poder, ser, ter, vir
- Out of the above, 8 lemmas occurred sometimes as AUX and sometimes as VERB: dever, estar, haver, ir, poder, ser, ter, vir
- There are 4 (de)verbal forms:
- Fin
- AUX: é, vai, está, tá, foi, foram, será, estão, ta, vamos
- VERB: romper, analise, confira, resultou, tem, sobe, fechou, pode, vai, veja
- Ger
- AUX: sendo
- VERB: caindo, subindo, comprando, falando, fazendo, dando, fechando, chegando, testando, saindo
- Inf
- AUX: ser, ter, estar, se, e, serem, sermos, terem
- VERB: comprar, ver, vender, subir, fazer, saber, entrar, dar, investir, cair
- Part
- ADJ: Atualizado, antecipada, idolatrada, inflada, Permitida, Simulada, atualizadas, cagado, Estruturada, Expandida
- AUX: sido
- VERB: indicado, ajustadas, comprado, postado, vendido, feito, administrada, cancelado, capitalizada, negociado
Nominal Features
- Fem
- ADJ: nova, última, financeiras, históricas, boa, passada, técnica, boas, linda, exclusiva
- ADJ-Part: antecipada, idolatrada, inflada, Permitida, Simulada, atualizadas, Estruturada, Expandida, avaliada, cagada
- ADP: a, as
- DET: a, as, uma, sua, essa, esta, suas, minha, alguma, nossa
- NOUN: ações, indicação, venda, compra, MM21, alta, 16h, resistências, semana, queda
- NUM: uma, duas
- PRON: ela, a, essa, uma, as, outras, outra, todas, la, elas
- PROPN: #PETR4, ITUB4, República, siderurgia
- VERB: ajustadas, administrada, capitalizada, coberta, divulgada, instalada, realizada, alugadas, controladas, feita
- VERB-Part: ajustadas, administrada, capitalizada, coberta, divulgada, instalada, realizada, alugadas, controladas, feita
- Masc
- ADJ: diário, financeiro, bom, 1º, novo, últimos, cons, primeiro, líquido, próximo
- ADJ-Part: Atualizado, cagado, Industrializados, Sindicalizado, abertos, cotado, desenhado, desgovernado, encilhado, esticado
- AUX-Part: sido
- DET: o, os, um, esse, este, seu, meu, mesmo, outros, todo
- NOUN: gráfico, Rastreamento, dia, ativo, vol, suportes, preço, intraday, volume, fundo
- NUM: um, dois
- PRON: o, isso, nada, os, alguém, ele, algo, todos, esse, isto
- VERB-Part: indicado, comprado, postado, vendido, feito, cancelado, negociado, ajustado, esperado, exercido
- Plur
- ADJ: maiores, financeiras, gerais, históricas, últimos, cons, melhores, corporativos, grandes, boas
- ADJ-Part: atualizadas, Industrializados, abertos, movimentados, processados, recomendadas, supostos
- ADP: as
- AUX-Fin: foram, estão, vamos, são, estamos, eram, vão, serão, estao, estaremos
- AUX-Inf: serem, sermos, terem
- DET: os, as, quais, suas, minhas, outros, outras, seus, algumas, alguns
- NOUN: ações, 16h, suportes, resistências, 14h, demonstracoes, 12h, 11h, bilhões, milhões
- PRON: os, todos, eles, vcs, as, nos, outras, todas, vocês, quais
- VERB-Fin: caem, temos, Saíram, entraram, lembram, pagam, agitam, compraram, falam, fazem
- VERB-Inf: tomarem, apresentarem, darmos, desabarem, fazerem, terem, vermos
- VERB-Part: ajustadas, recebidos, alugadas, controladas, rebaixados, Indicados, anunciados, cancelados, comentadas, cotadas
- Sing
- ADJ: superior, diário, nova, última, financeiro, semanal, maior, relevante, individual, bom
- ADJ-Part: Atualizado, antecipada, idolatrada, inflada, Permitida, Simulada, cagado, Estruturada, Expandida, Sindicalizado
- ADP: a
- AUX-Fin: é, vai, está, tá, foi, será, ta, vou, era, estava
- AUX-Inf: e, ser
- AUX-Part: sido
- DET: a, o, uma, um, sua, essa, esse, esta, este, seu
- NOUN: indicação, gráfico, Rastreamento, dia, ativo, venda, compra, vol, MM21, alta
- NUM: uma
- PRON: o, eu, isso, ela, me, vc, a, nada, qual, você
- PROPN: ocidental, #PETR4, ITUB4, República, siderurgia
- VERB: romper, analise, confira, resultou, tem, fechou, sobe, indicado, pode, vai
- VERB-Fin: romper, analise, confira, resultou, tem, fechou, sobe, pode, vai, veja
- VERB-Inf: ficar, achar, borrar, continuar, devolver, dizer, elevar, mostrar, responder, vir
- VERB-Part: indicado, comprado, postado, vendido, feito, administrada, cancelado, capitalizada, negociado, ajustado
- Acc
- PRON: me, a, mim, la, nos, se, te
- Dat
- PRON: me, lhe, te, lhes, nos, ti
- Nom
- PRON: se, eu, ela, vc, você, ele, eles, vcs, vocês, elas
- Def
- DET: a, o, os, as, e, às
- PRON: o, a, os, as
- Ind
- DET: uma, um, uns, umas
- PRON: uma, um
Degree and Polarity
Verbal Features
- Cnd
- AUX-Fin: seria, estaria, iria, seriam, teria, teríamos, deveria, poderia, poderiam
- VERB-Fin: venderia, compraria, diria, poderia, Teria, aconteceria, colocaria, deveria, ficaria, Saberia
- Imp
- AUX-Fin: Vamos, seja, Esteja, ser, vai
- VERB: analise, confira, veja, saiba, Assista, olha, entre, Prepare, leia, conheça
- VERB-Fin: analise, confira, veja, saiba, Assista, olha, entre, Prepare, leia, conheça
- Ind
- AUX-Fin: é, vai, está, tá, foi, foram, será, estão, ta, vou
- AUX-Inf: e
- VERB: resultou, tem, fechou, sobe, pode, diz, vai, vale, cai, faz
- VERB-Fin: resultou, tem, fechou, sobe, pode, diz, vai, vale, cai, faz
- VERB-Part: programa
- Sub
- AUX-Fin: seja, for, estivesse, fosse, sejam, tenha, esteja, estiver, fossem, vá
- VERB-Fin: romper, fechar, perder, quiser, tiver, bater, comece, segure, venha, achar
- Fut
- AUX-Fin: será, estarei, for, serão, estaremos, irá, irão, sera, vai, estiver
- VERB-Fin: romper, fará, fechar, perder, terá, haverá, quiser, distribuirá, tiver, bater
- Imp
- AUX-Fin: estava, era, ia, eram, tinha, tava, estavam, havia, haviam
- VERB-Fin: valia, queria, Diziam, ia, tinha, abriam, bitributava, faziam, levava, podia
- Past
- AUX-Fin: foi, foram, fui, estivesse, era, fosse, esteve, f, fo, for
- VERB-Fin: resultou, fechou, finalizou, bateu, subiu, deu, fez, comprou, anunciou, foi
- Pqp
- VERB-Fin: tomara
- Pres
- AUX-Fin: é, vai, está, tá, estão, ta, vou, vamos, estou, =
- VERB: tem, sobe, pode, diz, vai, vale, cai, faz, quer, vem
- VERB-Fin: tem, sobe, pode, diz, vai, vale, cai, faz, quer, vem
- Pass
- VERB-Part: ajustadas, capitalizada, divulgada, postado, rebaixados, Indicados, alterada, anunciados, arbitrada, cancelado
Pronouns, Determiners, Quantifiers
- Art
- DET: a, o, os, as, uma, um, uns, umas, e, s
- PRON: o, a, os, as, uma, um
- PROPN: #PETR4
- Dem
- DET: essa, esse, esta, este, mesmo, o, aquela, essas, esses, mesma
- PRON: o, isso, essa, esse, isto, os, a, este, mesmo, as
- Ind
- DET: que, mais, alguma, outros, outras, todo, cada, muita, algumas, outro
- PRON: quem, tudo, nada, alguém, algo, todos, ninguém, outras, outra, outro
- Int
- DET: quais, qual, Que, quantos
- PRON: quem, qual, q, quais, quê, Qum, o
- Prs
- DET: sua, seu, meu, suas, minha, nossa, minhas, seus, meus, nossas
- PRON: se, eu, ela, me, vc, você, ele, te, eles, lhe
- Rel
- DET: que
- PRON: que, q, quem, quê, qq, qual, quer
- Card
- NUM: 13, 5, 3, 10, 15, 2, 1, 4, 31/12/2013, 6
- Ord
- ADJ: 1º, terceiro, 4º, 1ª, 2º, 3º, 4°, 5º, décimo, oitavo
- Yes
- DET: sua, seu, meu, suas, minha, nossa, minhas, seus, meus, nossas
- PRON: nossa, nosso, sua, minha
- 1
- AUX-Fin: vou, vamos, estava, estou, estamos, to, tô, fui, sou, estarei
- AUX-Inf: sermos
- PRON: eu, me, nos, mim, nossa, nosso, minha, nóis, nós
- VERB-Fin: acho, sei, tenho, comprei, temos, vi, acabei, observo, entrei, monitoro
- VERB-Inf: ficar, achar, darmos, vermos
- 2
- AUX-Fin: tais
- PRON: vc, você, te, vcs, vocês, tú, voces, ocê, ti
- VERB-Fin: olha, dá, segue, vende, Abre, Afunda, DEVE, Espera, explica, fala
- 3
- AUX-Fin: é, vai, está, tá, foi, foram, será, estão, ta, era
- AUX-Inf: e, ser, serem, terem
- PRON: se, o, ela, ele, a, eles, lhe, os, la, elas
- VERB: romper, analise, confira, resultou, tem, sobe, fechou, pode, diz, vai
- VERB-Fin: romper, analise, confira, resultou, tem, sobe, fechou, pode, diz, vai
- VERB-Inf: tomarem, apresentarem, borrar, continuar, desabarem, devolver, dizer, elevar, fazerem, mostrar
- VERB-Part: programa
Other Features
- Abbr
- Yes
- ADJ: cons, últ., max, ult, Financ, acumul, mta, mto, máx, próx.
- ADV: hj, ñ, tb, n, enqt, eqnnt, msm, mt, mto, qdo
- AUX-Fin: tá, ta, to, tô, tava, tou, tao
- NOUN: vol, bi, mm, obj, cp, min, pagto, ex, mi, cia
- Yes
- Foreign
- Yes
- PROPN: Webcast, Ceteris
- X: Webcast, #Whoknows, loss, shooting, star, stop, top, by, ha, picks
- Yes
- Typo
- Yes
- ADJ: Proprio, diári, Fiduciario, Acionaria, Maxima, bão, possivel, unica, bilionario, confiaveis
- ADV: nao, ai, ja, amanha, Cade, Atraves, alem, atras, quando, so
- AUX-Fin: ta, to, esta, estamos, e, eh, estao, sao, sera, eat
- AUX-Inf: e, se
- CCONJ: Ja
- DET: Awuele, e, s, varias, varios, às
- NOUN: demonstracoes, Distribuicao, alteracao, Ingles, dataex, acoes, papeis, Disposicao, Calendario, indice
- NUM: 10,, Iii, cindo
- PRON: ninguem, sem, tú, voces, Qm, Qum, alguem, la, mo, nóis
- PROPN: petrobrás, #Petrobrás, #Eletrobrás, Eletrobrás, Eletr, Graca, mega, #, #HOME, @
- SCONJ: pelo
- VERB: fêz, comprado, vamu, da, ve, analisár, devlveu, ligarm, separemo, FUDER
- VERB-Fin: fêz, vamu, da, ve, ligarm, separemo, FUDER, FUDERAM, a, chora
- VERB-Ger: administrando, deixnado, rompento, subondo
- VERB-Inf: analisár, comecar, pasar
- VERB-Part: comprado, comparada, concluidas, extendida, olhada, programa, tomado
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 2 lemmas as copulas (cop). Examples: ser, estar.
- This corpus uses 7 lemmas as auxiliaries (aux). Examples: ir, estar, ter, poder, ser, haver, vir.
- This corpus uses 2 lemmas as passive auxiliaries (aux:pass). Examples: ser, ir.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN (754)
- VERB-Fin--NOUN-ADP(para) (1)
- VERB-Fin--PRON (225)
- VERB-Fin--PRON-Nom (139)
- VERB-Ger--NOUN (52)
- VERB-Ger--PRON (17)
- VERB-Ger--PRON-Nom (11)
- VERB-Inf--NOUN (48)
- VERB-Inf--PRON (23)
- VERB-Inf--PRON-Nom (18)
- VERB-Part--NOUN (15)
- VERB-Part--PRON (4)
- VERB-Part--PRON-Nom (3)
- obj
- VERB--NOUN (2)
- VERB-Fin--NOUN (1417)
- VERB-Fin--NOUN-ADP(de) (1)
- VERB-Fin--NOUN-ADP(em) (1)
- VERB-Fin--PRON (117)
- VERB-Fin--PRON-ADP(com) (1)
- VERB-Fin--PRON-Acc (12)
- VERB-Fin--PRON-Nom (2)
- VERB-Ger--NOUN (148)
- VERB-Ger--PRON (15)
- VERB-Ger--PRON-Acc (1)
- VERB-Ger--PRON-Nom (2)
- VERB-Inf--NOUN (341)
- VERB-Inf--NOUN-ADP(às) (2)
- VERB-Inf--PRON (20)
- VERB-Inf--PRON-Acc (4)
- VERB-Inf--PRON-Nom (4)
- VERB-Part--NOUN (18)
- VERB-Part--PRON (3)
- iobj
- VERB-Fin--PRON-Acc (3)
- VERB-Fin--PRON-Dat (37)
- VERB-Ger--PRON-Acc (1)
- VERB-Ger--PRON-Dat (3)
- VERB-Inf--PRON-Acc (1)
- VERB-Inf--PRON-Dat (4)
- VERB-Part--PRON-Dat (1)
Relations Overview
- This corpus uses 9 relation subtypes: acl:relcl, aux:pass, ccomp:speech, flat:foreign, flat:name, nmod:tmod, nsubj:outer, nsubj:pass, obl:agent
- The following 2 relation types are not used in this corpus at all: clf, compound