UD_Vietnamese-TueCL
|
UD_Vietnamese-VTB
|
Tokenization and Word Segmentation
|
Tokenization and Word Segmentation
|
- This corpus contains 100 sentences and 1888 tokens.
|
- This corpus contains 3323 sentences and 58069 tokens.
|
- This corpus contains 207 tokens (11%) that are not followed by a space.
|
- All tokens in this corpus are followed by a space.
|
- This corpus contains 285 types of words with spaces. Examples: chúng ta, có thể, chúng tôi, bất cứ, không thể, tham số, thay đổi, anh ta, bắt đầu, khác nhau, một vài, thành viên, thực sự, Dù sao, bao giờ, bác sĩ, bệnh nhân, cho đến, cung cấp, các bạn, cô ấy, cả hai, gia đình, hoàn toàn, hành trình, kết quả, lĩnh vực, mục tiêu, ngay cả, người ta, quan hệ, quyết định, quân đội, thành phố, thí nghiệm, thế giới, thực ra, tiếng nói, trở nên, tác động, tương lai, tương tác, tất cả, tổ chức, từ bi, tự do, xem xét, xây dựng, xảy ra, yêu cầu
|
- This corpus contains 4152 types of words with spaces. Examples: chúng tôi, gia đình, công ty, thám tử, có thể, điện thoại, không thể, hà nội, tất cả, vợ chồng, đầu tiên, cơ quan, tuy nhiên, tổ chức, câu chuyện, quyết định, kiểm tra, cuộc đời, khủng bố, xây dựng, giám đốc, một số, thông tin, thời gian, tiếp tục, theo dõi, điều tra, cuộc sống, muay thái, thủ phạm, bà con, cuối cùng, kế hoạch, anh em, bắt đầu, hàng xóm, khu vực, làm việc, phát hiện, trung tâm, bây giờ, cán bộ, công tác, thực hiện, đầu tư, dự án, nhà nước, đàn ông, đại học, bảo vệ
|
- This corpus contains 1 types of words that contain both letters and punctuation. Examples: Four-six
|
- This corpus contains 28 types of words that contain both letters and punctuation. Examples: tp., h., K., wai-kru, G., TP .HCM, 20-Dec, 20-Jun, 20-Mar, 3-Feb, 43H-016, 54N-7, 6-Jan, F., GD-ĐT, Lung-nan, M., N., TP.HCM, Th., Tr’ hy, bktt.vn, cà-rem, knock-out, p., q., q.1, www.anangquangnamfund.org
|
|
|
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB
- This corpus does not use the following tags: SYM, X
|
Morphology
Tags
- This corpus uses 17 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
|
- This corpus contains 15 word types tagged as particles (PART): Bộ, Mà, chứ, hề, nhé, phi, phải, ra, thi, thì, tụi, vậy, à, đâu, đấy
|
- This corpus contains 57 word types tagged as particles (PART): Thì, Thật ra, chao, chính, chứ, cái, có, cơ mà, cả, dạ, gì, hà, hả, hết, hề, là, lắm, mà, mất, mấy, mỗi, ngay, nhá, nhé, nhất là, nhỉ, nào, này, nữa, quả, riêng, rùi, rồi, sao, thay, thiệt, thì có, thôi, thật, thế, trời, tận, tổ, tới, ui, vậy, à, đi, đâu, đây, đó, được, đấy, đến, ơi, ạ, Ấy
|
- This corpus contains 36 lemmas tagged as pronouns (PRON): ai, anh, anh ta, anh ấy, bạn, bản thân, cha, chúng, chúng ta, chúng tôi, các anh, các bạn, cô, cô ấy, cậu, em, gì, hắn, họ, kia, mà, mày, mình, ngài, nhau, nào, nó, ta, tao, tôi, tự, ông, ông ấy, đâu, đây, đó
|
- This corpus contains 66 lemmas tagged as pronouns (PRON): ai, anh, bao, bao giờ, bao lâu, bao nhiêu, bà, bây giờ, bấy giờ, chúng, chúng mình, chúng nó, chúng ta, chúng tôi, cô ta, cả, giờ đây, gã, gì, hey, hiện nay, hùng, hắn, họ, kia, mày, mình, mô, nay, người ta, nhau, ni, nào, này, nó, nọ, phòng, rày, rứa, sao, ta, tao, thằng, thế, thế nào, thế này, toàn, tui, tôi, tại sao, tất cả, tớ, từng, tự, vầy, vậy, ông, ông ta, đâu, đâu đó, đây, đây đó, đích thân, đó, đấy, ấy
|
- This corpus contains 17 lemmas tagged as determiners (DET): ai, bất cứ, các, cả, cả hai, kia, mấy, mọi, mỗi, một vài, nay, những, này, tất cả, từng, vài, đó
|
- This corpus contains 37 lemmas tagged as determiners (DET): bao, bao nhiêu, bấy nhiêu, chút, chút đỉnh, các, cả, hàng loạt, hầu hết, l, làng, muôn, muôn vàn, mấy, mọi, mỗi, một, một chút, một nửa, một số, một vài, nhiều, những, nửa, phần lớn, toàn, toàn bộ, toàn thể, tất cả, từng, vài, vài ba, vô khối, vô số, vô vàn, đa số, đôi
|
- Out of the above, 3 lemmas occurred sometimes as PRON and sometimes as DET: ai, kia, đó
|
- Out of the above, 6 lemmas occurred sometimes as PRON and sometimes as DET: bao, bao nhiêu, cả, toàn, tất cả, từng
|
- This corpus contains 8 lemmas tagged as auxiliaries (AUX): bị, có thể, có vẻ, không thể, là, nghĩa là, phải, được
|
- This corpus contains 13 lemmas tagged as auxiliaries (AUX): bị, chưa thể, chắc chắn, có thể, có vẻ, cần, không thể, là, muốn, nên, phải, được, định
|
- Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: được
|
- Out of the above, 9 lemmas occurred sometimes as AUX and sometimes as VERB: bị, chắc chắn, có vẻ, cần, muốn, nên, phải, được, định
|
- This corpus does not use the VerbForm feature.
|
- This corpus does not use the VerbForm feature.
|
Nominal Features
|
Nominal Features
|
|
|
|
|
- Masc
- PRON: anh, cậu, hắn, ông, anh ta, Anh ấy, các anh, ông ấy
|
|
|
|
|
|
|
|
- Plur
- DET: các
- PART: tụi
- PRON: chúng ta, họ, ta, chúng tôi, chúng, các bạn, các anh
|
|
- Sing
- PRON: tôi, nó, bạn, anh, cậu, hắn, ta, ông, anh ta, cô ấy
|
|
|
|
|
|
|
|
|
|
Degree and Polarity
|
Degree and Polarity
|
|
|
|
|
- Neg
- ADJ: không thể
- ADV: không, chưa, chẳng, đừng, ko
- AUX: không thể
- INTJ: không
- PART: hề, phi
|
|
|
|
|
|
Verbal Features
|
Verbal Features
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Pronouns, Determiners, Quantifiers
|
Pronouns, Determiners, Quantifiers
|
|
|
- Dem
- DET: này, đó, kia, nay
- PRON: đó, đây, kia
|
|
- Ind
- DET: một vài, vài
- PRON: gì, nào, ai
|
|
- Int
- DET: ai
- PRON: gì, đâu, ai
|
|
- Prs
- PRON: tôi, chúng ta, nó, bạn, ta, họ, chúng tôi, chúng, anh, cậu
|
|
|
|
|
|
|
|
|
|
- Card
- NUM: một, hai, sáu, 19, 2004, 50, mười, tám
|
|
|
|
|
|
|
|
|
|
|
|
- 1
- PRON: tôi, chúng ta, ta, chúng tôi, em, tao
|
|
- 2
- PRON: bạn, cậu, anh, chúng, các bạn, ông, Mày, chúng ta, các anh, cô
|
|
- 3
- PRON: nó, họ, chúng, hắn, anh ta, cô ấy, Anh ấy, anh, ông, ông ấy
|
|
|
|
|
|
- Form
- PRON: cô ấy, Ngài, ông, ông ấy
|
|
- Infm
- PRON: nó, hắn, Mày, cậu, tao
|
|
|
|
|
|
Other Features
|
Other Features
|
|
|
- AdvType
- Cau
- Deg
- ADV: nhất, rất, khá, nhiều, quá, vô cùng
- Loc
- Man
- Mod
- ADV: chỉ, hãy, được, đừng
- Tim
- ADV: đã, sẽ, đang, bao giờ, Hôm nay, bây giờ, nay, sắp, trước đây, mới
|
|
- Deixis
- Prox
- Remt
- DET: đó
- PRON: đó, kia, đây
|
|
- Foreign
- Yes
- INTJ: Yeah
- PROPN: Cenote, Famillia, Federation, Fordham, Four-six, Future, Knights, Los, Michoacana, Ops
|
|
- NameType
- Com
- PROPN: Google, Four-six, Ops, Sergeant, Special
- Geo
- PROPN: Bangalore, Florida, Thái Bình Dương, nước Mỹ, Cenote, Fordham, Mexico, Parkway, River, Road
- Giv
- PROPN: Abdul, Gerda, Gregor, Jude
- Nat
- PROPN: Châu Á, Na Uy, Trung, Ả Rập
- Oth
- PROPN: F, PhET, ông trời, Famillia, Federation, Future, Knights, Los, Michoacana, Sinaloa
- Pro
- PROPN: Ba, Giày, Lê, Stirling, Yêu, Đáng
- Prs
- PROPN: Benjamin, Con, Dolarhyde, Leed, Sanghamitra, Sơ, Tony, Trai, Arthur
- Sur
|
|
|
|
|
|
- Typo
- Yes
- NOUN: sò, ván trược tuyết, xác xuất, ánh sánh
- PART: thi
- PROPN: Mexico
- SCONJ: trù khi
- VERB: bủa vây, dũa
|
|
- VerbType
- Aux
- AUX: phải, được, có vẻ, nghĩa là
- Cop
- Mod
- AUX: có thể, phải, được, bị, không thể
- VERB: muốn, thích, cần, biết, được
|
|
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: là.
|
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: là.
|
- This corpus uses 5 lemmas as auxiliaries (aux). Examples: phải, có thể, được, không thể, nghĩa là.
- This corpus uses 2 lemmas as passive auxiliaries (aux:pass). Examples: được, bị.
|
- This corpus uses 12 lemmas as auxiliaries (aux). Examples: phải, muốn, có thể, được, cần, bị, nên, không thể, chưa thể, chắc chắn, có vẻ, định.
- This corpus uses 2 lemmas as passive auxiliaries (aux:pass). Examples: được, bị.
|
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (34)
- VERB--NOUN-ADP(trong) (2)
- VERB--PRON (97)
|
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (2180)
- VERB--NOUN-ADP(nếu) (1)
- VERB--NOUN-ADP(trong) (1)
- VERB--NOUN-ADP(từ) (1)
- VERB--NOUN-ADP(ở) (1)
- VERB--PRON (531)
|
- obj
- VERB--NOUN (81)
- VERB--NOUN-ADP(lên) (1)
- VERB--NOUN-ADP(về) (1)
- VERB--NOUN-ADP(ở) (1)
- VERB--PRON (29)
|
- obj
- VERB--NOUN (3779)
- VERB--NOUN-ADP(cùng) (1)
- VERB--NOUN-ADP(của) (2)
- VERB--NOUN-ADP(tận) (1)
- VERB--NOUN-ADP(vào) (1)
- VERB--NOUN-ADP(về) (1)
- VERB--NOUN-ADP(với) (1)
- VERB--NOUN-ADP(đến) (2)
- VERB--NOUN-ADP(ở) (1)
- VERB--PRON (160)
|
- iobj
- VERB--NOUN (1)
- VERB--PRON (3)
- VERB--PRON-ADP(cho) (1)
|
- iobj
- VERB--NOUN (21)
- VERB--NOUN-ADP(cho) (1)
- VERB--NOUN-ADP(với) (1)
- VERB--PRON (3)
- VERB--PRON-ADP(cho) (1)
|
|
|
|
|
Verbs with Reflexive Core Objects
- This corpus contains 1 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: thứ tự
|
|
Relations Overview
- This corpus uses 8 relation subtypes: acl:relcl, aux:pass, compound:prt, nmod:poss, nmod:tmod, nsubj:outer, nsubj:pass, obl:tmod
- The following 6 relation types are not used in this corpus at all: expl, dislocated, list, orphan, goeswith, dep
|
Relations Overview
- This corpus uses 50 relation subtypes: acl:relcl, acl:subj, acl:tmod, acl:tonp, advcl:objective, advmod:adj, advmod:dir, advmod:neg, appos:nmod, aux:pass, clf:det, compound:adj, compound:amod, compound:apr, compound:atov, compound:dir, compound:pron, compound:prt, compound:redup, compound:svc, compound:verbnoun, compound:vmod, compound:z, csubj:asubj, csubj:pass, csubj:vsubj, det:pmod, flat:date, flat:foreign, flat:name, flat:number, flat:redup, flat:time, mark:pcomp, nmod:poss, nsubj:nn, nsubj:pass, nsubj:xsubj, nummod:det, obl:about, obl:adj, obl:adv, obl:agent, obl:comp, obl:iobj, obl:tmod, obl:with, xcomp:adj, xcomp:dir, xcomp:vcomp
- The following 3 relation types are not used in this corpus at all: orphan, goeswith, reparandum
|