home edit page issue tracker

This page pertains to UD version 2.

Treebank Statistics: UD_Portuguese-GSD: POS Tags: NOUN

There are 6202 NOUN lemmas (39%), 9400 NOUN types (27%) and 56590 NOUN tokens (18%). Out of 16 observed tags, the rank of NOUN is: 1 in number of lemmas, 2 in number of types and 1 in number of tokens.

The 10 most frequent NOUN lemmas: _, ano, dia, pessoa, r, cidade, país, presidente, vez, acordo

The 10 most frequent NOUN types: anos, ano, dia, r, presidente, pessoas, acordo, cidade, governo, tempo

The 10 most frequent ambiguous lemmas: _ (PROPN 26803, ADP 7821, PRON 6131, DET 3765, NOUN 3010, NUM 2377, AUX 1984, CCONJ 1516, PUNCT 1272, VERB 1077, SYM 904, ADJ 597, PART 561, X 379, ADV 191, SCONJ 3), r (NOUN 284, SYM 1), vez (NOUN 256, ADP 1), estado (NOUN 159, ADJ 1), caso (NOUN 155, SCONJ 6), local (NOUN 139, ADJ 58), final (NOUN 134, ADJ 54), meio (NOUN 131, ADJ 14, ADV 2, NUM 1), diretor (NOUN 122, ADJ 1), capital (NOUN 120, ADJ 3)

The 10 most frequent ambiguous types: anos (NOUN 466, NUM 3), presidente (NOUN 262, PROPN 1), parte (NOUN 181, VERB 4), vez (NOUN 169, ADP 1), forma (NOUN 144, VERB 3), casa (NOUN 134, DET 1), jogo (NOUN 139, VERB 2), meio (NOUN 130, ADJ 6, ADV 2, NUM 1), final (NOUN 125, ADJ 47), semana (NOUN 121, ADJ 1)

Morphology

The form / lemma ratio of NOUN is 1.515640 (the average of all parts of speech is 2.236183).

The 1st highest number of forms (1266) was observed with the lemma “_”: ”, ‘, 1, 100m, 10minBola, 11, 12, 12h, 13h, 15h45m, 16, 1kg, 2, 200m, 22h, 22h27, 22km, 23h59, 28, 29, 3, 4, 4x100m, 50m, 6, 93kg, 971R, 9h20, A., ANPR, ATR, Abraão, Acacia, Alessandro, Alexsandro, Amém., América, Aníbal, Aseleições, Ataliva, Aureliano, BR, BRVias, BRs, CBMTV, CD, CEOs, CT, Caberia, Cafusa, Campina, Caputera, Casiano, Celpa, Cemig, China, Cooprol, Crato, DJs, DNA, DSPs, DST, DVD, Ecuador, Eostre, Erundina, Fonce, Future, Gadaba, Gbps, HD, Hrubieszów, IR, ISSO, ISTOÉ, Iraque, Juquinha, LPs, LS, Leeds, Leleco, Lerum, MW, NAO, NBA, Nicarágua, Obs, Olímpia, PC, PCs, PDAs, PGR, PM, PPPs, PR, PRD, PREFERENCIAL, PSD, PagSeguro, Paraíba, Partidor, Pedro, Philippe, Policias, Qantas, RS, SFR, SMS, SUV, Skoczów, Sr., Taekwondo, URL, UTI, Vasco, Venezuela, Victor, Vingador, Wade, Yahoo!, _, a_n, abandonware, abcases, abordagm, abraçoterapia, abre, abássidas, ace, acionista, acionistas, acordeon, acumulado, acúfeno, adaptandos, adicionados, adicional, adipatos, adivogado, adotado, advanve, affinity, afiliada, afinaçao, afrobrasileiros, afrodescendentes, aftermarket, agraciados, agregadores, agroenergia, agropecuária, aids, ainda, alauita, albendazol, ales, alfinetada, alone, alphavirus, alta, altas, alternativa, alternativas, alteta, alvirrubro, ambulantes, americana, ameças, amistoso, amistosos, ancestrais, anfitriães, anos.Na, anterior, anteriores, antes, anticolinérgicos, antiglobalização, antipulgas, anuncios, apart, apenados, apoiador, apoiadores, apostinha, app, aprovados, aquaponia, aquícola, arboretum, arcade, areas, ares, argan, argente, arival, armarinho, aromatizadores, arquiteta, arrancada, arredores, art, art., aruanã, asessoria, assaltado, asteróide, atingidos, atingira, atriz, attachment, atual, atuante, augmenting, autodescoberta, autodescrição, autodidata, autokrator, automobilística, autoprodução, autovetores, auxilio, avifauna, açoreamento, bagatha, baia, baixa, baixas, balsâmicos, balão, bandanas, bandeirinha, bands, barbies, barrada, barrigão, bastante, batida, batidas, batmóvel, belga, beneficio, beneficios, benzimidazólicos, bicola, bilhões, biodiesel, biotinidase, bird, blogueira, boards, bolsões, bolão, bolões, boneca, bonecas, bordadeiras, borracha, borrachas, box, braille, branca, brasiguaios, buggy, bylaws, c., cabido, cabines, cadeirante, cadela, caia, calcar, calcinhas, call, calma, calçada, calçadas, calças, camareira, camp, canaleta, candidados, canhota, capazes, capitulo, caprinos, caracteres, característica, características, caradura, card, carinhas, carreira, carreiras, carrinho, carrinhos, carry, carteira, carteiras, carteirinha, casarões, cash, cassetas, cassis, casta, cathedra, catholicós, causados, cavadinha, cavaquinho, cavea, cebolinha, celeb, cell, celular, celulares, center, centers, certa, cerâmica, cessar, cevada, chamada, chamadas, check, chef, chefs, cheia, choca, cibercrime, cicadófitas, cinomose, cintada, cinética, citoqueratinas, clado, cladograma, clinkers, clobetasol, cloud, club, clínica, clínicas, coaches, coaching, coautora, cobradas, cobrarem, coenobium, coicidencia, colegiado, colegiados, coletores, colocada, colocado, colocados, colorado, comandado, comandados, comercial, comercio, começa, comodites, comoriano, compacto, compactos, compasão, computing, compõe, concept, concuro, concursados, concurseiros, condessa, condicionadores, condulências, conformes, conições, conscience, consellheiro, conseqüência, consignado, console, consoles, continuarão, contratado, contratados, contratenor, controle, controles, convencionais, conversa, conversas, convocado, convocados, coolers, cooperativa, cooperativas, coordenadas, copatrocinador, core, corficiente, corintiano, corintianos, corretora, costas, cotidiano, cotistas, cova, coxa, cracolândia, craniossinostose, criativo, cruas, cruzada, crítica, críticas, custódia, câmaras, céria, cômodos, dC, datashow, datum, decidão, defeculdade, defesa, defesas, deficientes, defumados, demais, demand, dentão, denunciado, denunciados, denuncias, depois, derrotada, derrubada, desabrigados, desafetos, desalavancagem, descidas, descoberta, descobertas, desejado, desembarcação, desembaçador, desenrolar, desfinanciamento, desktop, desktops, desmanche, desnvolvimento, despedida, despossuídos, diafilmes, dianteira, difíceis, difícil, digitos, diligencias, dinâmica, direcionais, directors, direita, discs, disperso, disque, distintos, diurético, doe.name, dona, download, downloads, duas, dubla, dublador, dulzainas, duopóplio, dupla, duplas, duquesa, dye, dérbi, easter, ebuilds, ecommerce, ecssa, editora, editoras, egg, elections, eletrodomésticos, eletrônicos, elevadas, eliminatória, emagrecedores, emissora, emissoras, emo, endolação, enfiada, entanto, entojada, entorno, entorpecente, entorpecentes, entrantes, entre, envolvidos, epigenética, equipados, equivalente, erínias, escapulare, escolhido, escondidas, escrita, escritas, esférócitos, especiais, especial, especies, especulado, esperado, espinha, esportistas, esquerdo, estadunidenses, estar, estarão, estatal, estatística, estatísticas, estimado, estimativa, estimativas, eternit, euriptéridos, eurozona, evangélicos, evidênsias, exatas, excessões, executive, exetrior, existente, existentes, exito, exportacões, fac, facão, falastrões, falha, falhas, falta, faltas, famosa, famosos, fanpage, fazer, federais, feira, feira.Equipes, feirão, feromônios, filiados, finanças, fitness, fitofisionomias, flamenguistas, flex, flexíveis, fnal, foliar, food, foot, formado, fotocontêiner, franqueados, freelancers, freestyle, freiras, fronteira, fronteiras, fumetti, fundos, funerária, futsal, fuzis, férias, fêmea, fêmeas, física, gadget, gadgets, galeada, gama, gandharas, gastrônoma, gata, geleira, geleiras, generis, genética, geradoras, gerenciador, gigawatts, ginasial, ginástica, global, glucose, gm, golaço, goleio, gonzaguinhas, graben, grafitagem, gramática, gratuita, gravadora, gravadoras, grelina, gremistas, grid, grife, gráfica, guerreira, hab, halteres, has, hashtag, hatch, hatchback, hebiatria, hendecacampeão, herbivoria, hermanos, heroi, heroína, hersia, hidrelétrica, hidrelétricas, hijab, hikikomori, hoje, homegeado, horrores, hospitalizadas, hospitalizados, hotsite, how, iCarros, iPad, iPhone, iPhones, idosa, idosos, idéia, idéias, imp, impeça, imprevisível, imprinting, improvável, incorre, incrível, incubadora, indecisos, independente, indicacações, indiretos, individuos, infectadss, influencia, informática, inicio, ins, inscritos, institucionalidade, integrante, integrantes, inteira, interino, intermediador, internção, interprete, intranets, intrões, investidas, invictos, isopentano, israelenses, iuans, jam, jamaicanos, japonesas, jatapu, jitsu, jiu, john.doe.name, jordaniano, juquira, jurisdicionado, justificativa, justificativas, juíza, know, kolam, kombis, konda, koya, kupia, ladroes, landegravina, lareira, larga, las, laureados, lazurite, ldots, led, legal, legislative, legislativo, leguminosa, letras, leves, liberdades, libertade, lider, ligações, liliopsida, line, linha, linhas, loans, lobopodios, lock, locou, logística, loira, longa, look, looks, los, lounge, louros, luminárias, luvas, luzes, lógica, m2, machões, madeiras, madrinhas, magazineluiza, mains, mainstream, maiores, malianos, malware, malwares, manobras, mantimentos, mantutenção, maquinas, marinha, massagueira, massas, masseiro, matemática, matricarca, me, mebendazol, mecânica, medal, mediana, megabit, megafauna, megapátio, meia, meias, meios, melhorar, memórias, menores, mensalão, merdas, metais, metilbutano, metilprednisolona, metralhadora, mezzo, microblog, microempreendedores, microfibrilas, micênica, mil, milhas, milícias, min, mineira, mineradora, minhocas, ministra, minoica, ml, model, moinhos, moiras, monergismo, morena, mortais, mortem, mostras, mudas, muglox, mujlher, municíopio, munições, musca, muçarela, m², m³, mágicas, máxima, média, médica, mínima, mínimas, móveis, música, músicas, namorada, negativa, negra, negrito, neta, netbook, netinha, nichiren, noise, nordestedo, normativos, norovírus, noticias, nulo, nulos, numero, oblonga, obrigatória, obtido, ocorrido, ofensiva, ofereça, oitavas, oleaginosa, olfativo, olhada, olheiras, ombré, omnivoria, on, oposicão, orbitador, ordinárias, orkutização, orquidófilos, ouros, outra, outro, ovaloide, ovinos, oxide, pacha, padrinho, pague, pais, paisana, palmeirenses, palurdo, paparazzi, papiloscopistas, papéis, para, parabéns, paraguaios, paralelas, paralimpíadas, paramilitares, parasitas, paratleta, parciais, parcial, parquinho, partes, participa, parvovirose, passada, path, pay, pecuária, pegada, pegadinha, pegar, peleteiros, pena, penas, pendrive, penitenciária, penúltimo, peração, percentuais, percentual, peridíolos, pets, phi, photoshoots, pichiciego, piers, pilha, pilhas, pin, pioglitazona, pior, pirambóia, piwo, planejado, plastificantes, platform, platinas, playsson, pocentagem, poderes, pole, poliomelite, politico, polivinila, poltronas, política, políticas, pontilhão, ponyo, porcentuais, porcentual, porja, portabilididade, portage, porteira, portuguesa, position, posts, postulante, postulantes, pousada, povos, pracaxi, pracinha, prateleiras, prcesso, prefeiturável, prefeitável, preferida, preferido, prejudicado, prender, preparativos, preparatórios, preperação, presa, presas, presenteado, presentes, presidenciais, presidenta, previstos, primeiroturno, princesa, princesas, principais, profiler, proibido, promeça, proposta, propostas, proteoglicanos, prticipação, prática, práticas, prévia, prínicpe, próprios, prōtospatharioi, ps, psiquiatras, pubalgia, publico, pulga, puta, pênalti.O, pênis, pêsames, quados, quadrinização, quarta, quartas, quarterback, que, quebequenses, quintos, química, races, radio, rafting, rainha, ramjet, raposa, reality, recall, recardas, receberão, receiver, reciclador, recompra, refletores, reforços, reggaeton, registrado, relacionados, releção, remediação, remix, rendeiras, repetitivo, reporteres, república, repúblicas, resendenses, resort, responsibilities, retardados, retirada, retransmissora, retrospectiva, revolta, revoltas, ribeiros, rights, rins, riograndinos, risca, rizosfera, rodada, rodadas, rodolitos, rota, roupão, royalties, roças, rpm, réis, sacada, sacellum, sacola, sacolés, sais, salafistas, salão, santista, santistas, sassânidas, sauditas, schwelkenfelders, seax, sec., seca, secada, secretario, secretária, secretárias, sectile, seguida, segunda, segunda-feira, seguradoras, seletiva, seletivas, sem, sequencia, seres, seria, session, shido, showman, side, siderúrgica, sinais, sistemico, sistemática, situada, skatistas, skins, smartphone, smartphones, sobreviragem, sobrinhas, sobrinho, sobrinhos, social, socinianos, sogra, solid, spam, stanza, startup, startups, streaming, stripper, sub, subcompactos, subcoordenadora, subida, subidas, subtestes, suiço, superclássico, superendividamento, superesportiva, supersessionismo, superóxido, suspeita, suspeitas, suspensa, suspenso, sêxtupla, tablet, tablets, tag, talk, talosianos, taluk, taluks, tampa, tarde3, tecno, telecatch, telemedicina, telão, telões, tempos.A, tempura, tempão, temática, tendai, tentativa, tentativas, terceira, terceirizados, teresinenses, termelétrica, termoeléctricas, test, testa, tetravalente, tholus, tim, timeco, tinta, tocante, tomadas, tomara, torres, totaaal, touchscreen, tour, trabalinhos, trailers, transmuralidade, traseira, trasmissões, trechão, triangular, tricolor, trilhão, trilhões, trimeste, tripulada, triturno, troca, trocas, troll, tropical, trólebuses, turtablism, twittadas, twitter, tye, técnica, técnicas, térmicas, tórus, ulha, umidificador, up, vaca, vacas, vacilo, val, valores, vans, varejista, varia, variasss, vascaínos, veiculo, vencedor, vencedora, vencedores, venezuelano, venezuelanos, ventura, veterinária, videoscopia, view, vihuela, villa, virada, virtualização, visitante, visitantes, visual, voivodia, voleio, votado, vulnerável, vídeomonitoramento, watching, web, wrestler, x86, youtubers, yuko, zague, zen, zigue, zolami, zoológico, °, ², º, África, Ênio, âmnion, índices, íntegra, óculos, óvulos, última, δ, π, ω, €, 奇, 瑞瑞虎.

The 2nd highest number of forms (5) was observed with the lemma “deputado”: DEP, deputada, deputadas, deputado, deputados.

The 3rd highest number of forms (5) was observed with the lemma “garoto”: garota, garotas, garotinha, garoto, garotos.

NOUN occurs with 8 features: Number (8351; 15% instances), Gender (8320; 15% instances), ExtPos (30; 0% instances), Abbr (10; 0% instances), NumType (8; 0% instances), Foreign (2; 0% instances), Polarity (2; 0% instances), Degree (1; 0% instances)

NOUN occurs with 11 feature-value pairs: Abbr=Yes, Degree=Dim, ExtPos=NOUN, ExtPos=PROPN, Foreign=Yes, Gender=Fem, Gender=Masc, NumType=Ord, Number=Plur, Number=Sing, Polarity=Neg

NOUN occurs with 22 feature combinations. The most frequent feature combination is _ (48235 tokens). Examples: anos, ano, dia, r, pessoas, presidente, cidade, acordo, governo, parte

Relations

NOUN nodes are attached to their parents using 27 different relations: nmod (28426; 50% instances), obj (9198; 16% instances), nsubj (7336; 13% instances), conj (3860; 7% instances), obl (1908; 3% instances), nsubj:pass (1464; 3% instances), appos (1381; 2% instances), root (1268; 2% instances), flat (405; 1% instances), iobj (267; 0% instances), ccomp (219; 0% instances), fixed (146; 0% instances), xcomp (136; 0% instances), parataxis (130; 0% instances), obl:agent (123; 0% instances), acl:relcl (108; 0% instances), advcl (68; 0% instances), amod (49; 0% instances), dep (35; 0% instances), case (15; 0% instances), acl (12; 0% instances), compound (12; 0% instances), csubj (8; 0% instances), nummod (7; 0% instances), flat:name (6; 0% instances), mark (2; 0% instances), flat:foreign (1; 0% instances)

Parents of NOUN nodes belong to 15 different parts of speech: VERB (30425; 54% instances), NOUN (20308; 36% instances), PROPN (1375; 2% instances), (1268; 2% instances), ADJ (1033; 2% instances), ADV (726; 1% instances), PRON (530; 1% instances), NUM (296; 1% instances), PART (212; 0% instances), SYM (190; 0% instances), ADP (154; 0% instances), DET (42; 0% instances), X (20; 0% instances), AUX (8; 0% instances), CCONJ (3; 0% instances)

1657 (3%) NOUN nodes are leaves.

13169 (23%) NOUN nodes have one child.

18268 (32%) NOUN nodes have two children.

23496 (42%) NOUN nodes have three or more children.

The highest child degree of a NOUN node is 15.

Children of NOUN nodes are attached using 34 different relations: det (35749; 26% instances), case (31232; 23% instances), nmod (22746; 17% instances), amod (11855; 9% instances), punct (10035; 7% instances), conj (3818; 3% instances), appos (3722; 3% instances), nummod (3383; 2% instances), cc (2740; 2% instances), acl:relcl (2392; 2% instances), acl (2000; 1% instances), cop (1636; 1% instances), det:poss (1294; 1% instances), nsubj (1073; 1% instances), advmod (1013; 1% instances), flat (540; 0% instances), mark (286; 0% instances), csubj (233; 0% instances), advcl (119; 0% instances), parataxis (103; 0% instances), dep (58; 0% instances), aux (44; 0% instances), acl:inf (38; 0% instances), obj (21; 0% instances), compound (17; 0% instances), flat:name (16; 0% instances), obl (16; 0% instances), ccomp (9; 0% instances), fixed (7; 0% instances), aux:pass (3; 0% instances), nsubj:pass (3; 0% instances), expl:pv (2; 0% instances), iobj (2; 0% instances), xcomp (1; 0% instances)

Children of NOUN nodes belong to 16 different parts of speech: DET (37054; 27% instances), ADP (31168; 23% instances), NOUN (20308; 15% instances), ADJ (11880; 9% instances), PUNCT (10035; 7% instances), PROPN (8517; 6% instances), VERB (5583; 4% instances), NUM (4441; 3% instances), CCONJ (2874; 2% instances), AUX (1685; 1% instances), ADV (1239; 1% instances), PRON (666; 0% instances), SYM (499; 0% instances), X (113; 0% instances), PART (90; 0% instances), SCONJ (54; 0% instances)