UD Sinhala STB
Language: Sinhala (code: si
)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.11 release.
The following people have contributed to making this treebank part of UD: Liyanage Chamila, Sarveswaran Kengatharaiyer.
Repository: UD_Sinhala-STB
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: fiction, government, news, nonfiction, web
Questions, comments? General annotation questions (either Sinhala-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [chamila • 82 (æt) gmail • com, sarves (æt) univ • jfn • ac • lk]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | annotated manually |
UPOS | annotated manually, natively in UD style |
XPOS | annotated manually |
Features | annotated manually, natively in UD style |
Relations | annotated manually, natively in UD style |
Description
This treebank consists contemporary written Sinhala text taken from a 10M corpus maintained by UCSC, Sri Lanka. The corpus contains novels, short stories, Sinhala translations, critiques and Sinhala newspapers.
The Sinhala language is an Ido-aryan language spoken by about 20 million people around the world. It is one of the two official languages in Sri Lanka spoken by 75\% of its population. Sinhala has been influenced by Portuguese, Dutch, English and Tamil languages in addition to Sanskrit and Pali.
Acknowledgments
References
Gunasekara, A. M. (1891). A Comprehensive Grammar of the Sinhalese Language. Godage International Publishers, Sri Lanka.
Karunatillake, W. S. (2009). Sinhala bhasha vyakaranaya. M. D. Gunasena & Co. Ltd, Sri Lanka.
Kumarathunga, M. (1993). kriya viwaranaya. M.D. Gunasena & Company Limited, Sri Lanka.
Kumarathunga, M. (2000). vyakarana vivaranaya. S. Godage & Brothers, Sri Lanka.
Sumanasara, T. (2007). Sinhala Bhashave Vyakaranaya. Wijesooriya Grantha Kendraya, Sri Lanka.
Sumangala, H. (1937). Sinhala vyakarana pari:kshanaya. D. C. Karunanayaka, Sri Lanka.
Statistics of UD Sinhala STB
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – NOUN – NUM – PART – PRON – PROPN – PUNCT – VERB
Features
AdpType – AdvType – Animacy – Aspect – Case – Definite – Degree – Foreign – Gender – Mood – Number – NumType – Person – Polarity – Poss – PronType – Tense – Typo – VerbForm – Voice
Relations
acl – advcl – advmod – advmod:emph – amod – aux – aux:pass – case – cc – ccomp – compound – compound:lvc – compound:prt – compound:svc – conj – cop – csubj – dep – det – det:poss – flat – mark – nmod – nmod:poss – nmod:tmod – nsubj – nummod – obj – obl – obl:lmod – obl:tmod – punct – root – xcomp
Tokenization and Word Segmentation
- This corpus contains 100 sentences and 880 tokens.
- All tokens in this corpus are followed by a space.
- This corpus does not contain words with spaces.
- This corpus does not contain words that contain both letters and punctuation.
Morphology
Tags
- This corpus uses 13 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PART, PRON, PROPN, PUNCT, VERB
- This corpus does not use the following tags: SCONJ, INTJ, SYM, X
- This corpus contains 21 word types tagged as particles (PART): ඉටු, ගැන, ගේ, ට, ද, දී, නො, පවා, පසු, පසුව, පළ, පුරා, බව, බිහි, ම, ය, යනු, යි, ලෙස, සඳහා, සිදු
- This corpus contains 15 lemmas tagged as pronouns (PRON): අප, අපි, එකිනෙක, එය, එහි, ඒ, ඔවුන්, ඔවුහු, ඔහු, කිහිප, තම, මෙ, මෙය, මේ, සිය
- This corpus contains 13 lemmas tagged as determiners (DET): අදාළ, අනෙක්, එබඳු, එම, ඒ, ඕනෑ, කිසිඳු, තව, තවත්, මේ, සෑම, සියලු, හැම
- Out of the above, 2 lemmas occurred sometimes as PRON and sometimes as DET: ඒ, මේ
- This corpus contains 11 lemmas tagged as auxiliaries (AUX): ඇත, තිබ, තිබෙ, නැත, නෑ, පවති, යුතු, ලබ, වෙ, සිටි, හැකි
- Out of the above, 6 lemmas occurred sometimes as AUX and sometimes as VERB: ඇත, තිබෙ, පවති, ලබ, වෙ, සිටි
- There are 6 (de)verbal forms:
- Conv
- VERB: අත්හිටුවා, කඩකර, කර, කියා, ගළපා, දුන්නේ, පිහිටා, යමින්, වෙමින්
- Fin
- AUX: තිබේ, හැකි, ඇත, නැත, යුතු, යුතුය, වේ, තිබිණි, පවතී, විය
- VERB: තිබේ, ඇත්තේ, වේ, ඉදිවිණි, කරති, කරමු, කළහ, කළේ, කෙරේ, ගත්හ
- Ger
- NOUN: කිරීම, අතුරුදන්වීම්, කරගැනීමේ, ගැනීම, ගැනීමේ, ගොඩනැඟීම, දැනගැනීම, පැරදවීම, යැවීම, යෑම
- VERB: වනු, කිරීම, කිරීමට, පොවනු, යැවීමේ, වටකරනු
- Inf
- VERB: කළ, කිරීමට, පිළිගන්නට, විය, ගත, දිය, භාරගත, ලබාගත, සැලකිය
- Part
- AUX: හැකි, ඇත්තේ, ඇති, ලැබ
- VERB: කර, පාවා, වී, අවශ්ය, කළේ, දී, පවතින, වන්නේ, සිටියේ, ඇහිරුණු
- Vnoun
- NOUN: හැඟීමක්, ඉල්ලීම, දැනුම, පැමිණියෝ, මෙහෙයුම්, වගකීම, වැටහීමක්
Nominal Features
- Masc
- NOUN: මහතා, ජනතාව, ප්රධානයකු, අධිපතිවරයාට, අස්සන්, ආරක්ෂක, කෙනාම, ත්රස්තවාදීන්, තැනැත්තන්, දෙන්නකු
- PRON: ඔහු, ඔහුට
- PROPN: මහින්ද, රනිල්, වික්රමසිංහ, ෆොන්සේකා
- Neut
- NOUN: අයවැය, ආණ්ඩුව, ආර්ථික, තත්ත්වය, දේශපාලන, යුද, අවස්ථාව, ආර්ථිකය, උද්ධමනය, ක්රමය
- NOUN-Vnoun: දැනුම
- PRON: ඒ, ඊට, එය, ඉන්, මෙය
- PROPN: ලංකාව, ඉන්දියාව, ඉරානය, චීනය, ටැන්සානියාව, පලස්තීනය, පාකිස්ථානය, ලංකාවක්, ලංකාවට, සිංගප්පූරුව
- Anim
- NOUN: ජනතාවට, කොටි, අය, ආරක්ෂක, කෙනාම, ජනතා, ජනතාව, ත්රස්තවාදීන්, දෙදෙනා, දෙන්නකු
- NOUN-Vnoun: පැමිණියෝ
- PRON: අපට, ඔව්හු, ඔවුනට, ඔවුන්
- PROPN: රාජපක්ෂ, ජුලියස්, නියරේරේ, මාඕ, සේතුං
- Inan
- NOUN: අංශ, අත, ආයතන, ආර්ථිකය, ආරාමවලට, උපදේශ, කඩය, කලාපයෙකි, ක්රමයේ, කීර්තිය
- PRON: ඊට, එය
- PROPN: අමෙරිකාවේ, හම්බන්තොට
- Plur
- NOUN: කොටි, අංශ, අභියෝග, අයවැය, අස්සන්, ආණ්ඩුව, ආයතන, ආරාධනා, ආරාමවලට, උපදේශ
- NOUN-Vnoun: පැමිණියෝ, මෙහෙයුම්
- PRON: අපට, ඔව්හු, ඔවුනට, ඔවුන්
- VERB-Fin: කරමු, ගනිති
- Ptan
- NOUN: යුද, කලකට, කලක්, ගිනි, දේශපාලන, බදු, විනය, සල්ලි, හමුදාවේ
- Sing
- NOUN: මහතා, කිරීම, ජනතාව, තත්ත්වය, අයවැය, අවස්ථාව, ආණ්ඩුව, ආර්ථික, ආර්ථිකය, උද්ධමනය
- NOUN-Ger: කිරීම, අතුරුදන්වීම්, කරගැනීමේ, ගැනීම, ගැනීමේ, ගොඩනැඟීම, දැනගැනීම, පැරදවීම, යැවීම, යෑම
- NOUN-Vnoun: හැඟීමක්, ඉල්ලීම, දැනුම, වගකීම, වැටහීමක්
- PRON: ඔහු, එය, එහි, ඒ, ඔහුට, ඉන්, කිහිපයක්, මීට, මෙය
- PROPN: ලංකාව, මහින්ද, රනිල්, රාජපක්ෂ, වික්රමසිංහ, ෆොන්සේකා, අමෙරිකාවේ, ඉන්දියාව, ඉරානය, චීනය
- VERB-Fin: දරයි
- VERB-Ger: කිරීමට, යැවීමේ
- Abl
- NOUN: අතින්, ඉරානයෙන්, ඡන්දයෙන්, පිට්ටනියෙන්
- PRON: ඉන්
- Acc
- NOUN: කිරීම, ජනතාව, ප්රධානයකු, රට, හැඟීමක්, අදහස, අදහසක්, අදියර, අයවැය, ආණ්ඩුව
- NOUN-Ger: කිරීම, දැනගැනීම, පැරදවීම, යැවීම, යෑම
- NOUN-Vnoun: හැඟීමක්, ඉල්ලීම, මෙහෙයුම්, වගකීම, වැටහීමක්
- PRON: ඒ, එකිනෙකා, එය, ඔවුන්
- PROPN: ඉරානය, චීනය, ටැන්සානියාව, පලස්තීනය, ලංකාව, සර්බියානු, සිංගප්පූරුව
- Ben
- NOUN: ජනතාවට
- Cns
- NOUN: කොමිස්වලට, ගිවිසුමට, රටට, ලංකාවට
- Dat
- NOUN: ජනතාවට, අධිපතිවරයාට, දේශප්රේමීන්ට, නායකයකුට, පක්ෂයට, බවට, මහතාට, මෙරටට, මෙහෙයුම්වලට, සංවිධානයට
- PRON: ඊට, ඔහුට, අපට, ඔවුනට, මීට
- PROPN: ලංකාවට
- Gen
- NOUN: හමුදාවේ, ආසියාවේ, උපායෙහි, කරගැනීමේ, ක්රමයේ, ජාතියේ, මණ්ඩලයේ, ලෝකයේ, වන්නියේ, ශිල්පයෙහි
- NOUN-Ger: කරගැනීමේ
- PROPN: අමෙරිකාවේ
- Ill
- NOUN: ආරාමවලට
- Ine
- NOUN: අත්අඩංගුවේ, කේන්ද්රස්ථානයක, ජපානයේ, නගරයේ, ප්රදේශවල, මධ්යයේ, මෙරට, රාජ්යයක, රාජ්යයේ, ලිපියක
- Ins
- NOUN: ක්රමය, කාලයකින්, කිරෙන්, කිහිපයකින්, පරිත්යාගයෙන්, ලේඛනයෙනි, වීමෙන්
- NOUN-Ger: වීමෙන්
- Loc
- NOUN: ආසන්නයේ, කලාපයෙකි, තත්ත්වයක, මොහොතේ, වටරවුමේ, විද්යාවේ
- PRON: එහි
- Nom
- NOUN: ආර්ථික, අද, මහතා, දේශපාලන, තත්ත්වය, යුද, අය, අයථා, අයවැය, අවසන්
- NOUN-Ger: අතුරුදන්වීම්, කිරීම
- NOUN-Vnoun: දැනුම, පැමිණියෝ
- PRON: ඔහු, එය, ඒ, ඔව්හු, කිහිපයක්, මෙය
- PROPN: මහින්ද, යුනෙස්කෝ, රනිල්, රාජපක්ෂ, ලංකාව, ලිප්ටන්, වික්රමසිංහ, ෆොන්සේකා, ඉන්දියාව, ජුලියස්
- Def
- ADV: අවසානයේ
- NOUN: මහතා, කිරීම, ආණ්ඩුව, ජනතාව, තත්ත්වය, අයවැය, අවස්ථාව, ආර්ථිකය, උද්ධමනය, ක්රමය
- NOUN-Ger: කිරීම, කරගැනීමේ, ගැනීම, ගොඩනැඟීම, දැනගැනීම, පැරදවීම, යැවීම, යෑම
- NOUN-Vnoun: ඉල්ලීම, දැනුම, වගකීම
- PROPN: ලංකාව, අමෙරිකාවේ, ඉන්දියාව, ඉරානය, චීනය, ටැන්සානියාව, පලස්තීනය, පාකිස්ථානය, ලංකාවට, සිංගප්පූරුව
- VERB-Ger: කිරීමට, යැවීමේ
- Ind
- NOUN: ප්රධානයකු, හැඟීමක්, අදහසක්, කතාවක්, කයිවාරුවක්, කලකට, කලක්, කලාපයෙකි, කාරණයෙකි, කාලයකින්
- NOUN-Vnoun: හැඟීමක්, වැටහීමක්
- PRON: කිහිපයක්
- PROPN: ලංකාවක්
Degree and Polarity
- Pos
- ADJ: වැදගත්, හොඳ, අල්පේච්ඡ, අලුත්, අවංක, උද්ධච්ඡ, උපරිම, කාලීන, කෙටි, ගැඹුරු
- NOUN: වැඩි
- Neg
- AUX-Fin: නැත
- PART: නො
Verbal Features
- Perf
- AUX-Fin: ඇත, තිබේ
- AUX-Part: ඇති, ලැබ
- VERB: දී, කර, පිහිටා, අත්හිටුවා, කඩකර, කියා, ගළපා, ගෙන, පෙරැළී, වී
- VERB-Conv: අත්හිටුවා, කඩකර, කර, කියා, ගළපා, පිහිටා
- VERB-Part: කර, දී, ගෙන, පිහිටා, පෙරැළී, වී
- Prog
- VERB-Conv: යමින්, වෙමින්
- VERB-Part: දරමින්
- Prosp
- AUX-Fin: නැත, ඇත
- VERB-Ger: වනු
- Ind
- AUX-Fin: වේ, තිබිණි, නැත, පවතී, විය, වූහ, වෙති, සිටී
- AUX-Part: ලැබ
- VERB: තිබේ, කර, වනු, වී, වේ, සිටියේ, ඉදිවිණි, කඩකර, කරති, කරමු
- VERB-Conv: කඩකර, කර, කියා, දුන්නේ
- VERB-Fin: තිබේ, වේ, ඉදිවිණි, කරති, කරමු, කළහ, කළේ, කෙරේ, ගත්හ, ගනිති
- VERB-Ger: වනු, පොවනු, වටකරනු
- VERB-Part: කර, වී, සිටියේ, ගත්තේ, දරමින්, දී, පාවා, පැතිර, පෙන්වා, පෙන්වූයේ
- Nec
- VERB-Inf: කළ, දිය, භාරගත, විය
- Pot
- VERB-Inf: කළ, ගත, ලබාගත, විය, සැලකිය
- Past
- AUX-Fin: තිබිණි, විය, වූහ
- VERB: කළේ, කර, පිහිටා, වී, සිටියේ, ඇහිරුණු, ඉදිවිණි, කළහ, කී, කෙළේ
- VERB-Conv: ගළපා, දුන්නේ, පිහිටා
- VERB-Fin: ඉදිවිණි, කළහ, කළේ, දැමිණි, පැවැතිණි, විය, සිදුවිය
- VERB-Part: කර, කළේ, වී, සිටියේ, ඇහිරුණු, කී, කෙළේ, ගතකළ, ගත්තේ, ගිය
- Pres
- AUX-Fin: තිබේ, වේ, පවතී, වෙති, සිටී
- VERB-Conv: යමින්, වෙමින්
- VERB-Fin: තිබේ, ඇත්තේ, වේ, කරති, කරමු, කෙරේ, ගනිති, ගනී, දනී, දරයි
- VERB-Part: පවතින, වන්නේ, කරන, පසුවන, මතුවන, ලැබෙන්නේ, වැද්දගන්නේ, හඳුන්වන්නේ
- Act
- AUX-Fin: වෙති
- VERB-Conv: කඩකර, කියා, දුන්නේ
- VERB-Fin: කරති, කරමු, කළහ, කළේ, ගනිති, ගනී, දනී, දරයි, වේ
- VERB-Ger: කිරීම
- VERB-Inf: කළ, දිය, භාරගත
- VERB-Part: කළේ, සිටියේ, කර, කරන, කී, කෙළේ, ගතකළ, ගත්තේ, ගොඩනැඟුවේ, දරමින්
- Pass
- VERB-Fin: ඉදිවිණි, කෙරේ, දැමිණි, පැවැතිණි, විය, සැලකේ
- VERB-Ger: වනු
- VERB-Part: ඇහිරුණු, පෙනී, පෙරැළී, ලැබෙන්නේ
Pronouns, Determiners, Quantifiers
- Dem
- PRON: ඒ, එය, එහි, ඊට, එම, ඉන්, මීට, මෙය
- Ind
- PRON: කිහිපයක්
- Prs
- PRON: ඔහු, ඔහුට, අප, අපට, අපේ, ඔව්හු, ඔවුනට, ඔවුන්, තම, සිය
- Rcp
- PRON: එකිනෙකා
- Card
- NUM: 1990, හතර
- Ord
- ADJ: පළමුව
- NOUN: දෙවැන්න
- NUM: දෙවැන්න, පළමු
- Yes
- PRON: සිය, අප, අපේ, තම
- 1
- PRON: අපට
- VERB-Fin: කරමු
- 3
- AUX-Fin: වූහ, වෙති
- NOUN: මහතා, ප්රධානයකු, විපක්ෂනායක
- PRON: ඔහු, ඔවුන්, ඔහුට
- PROPN: මහින්ද, රනිල්, රාජපක්ෂ, වික්රමසිංහ, ෆොන්සේකා, ජුලියස්, නියරේරේ, මාඕ, සේතුං
- VERB-Conv: දුන්නේ
- VERB-Fin: කරති, කළහ, ගනිති, දරයි
Other Features
- AdpType
- Post
- ADP: පිළිබඳ, සඳහා, තුළ, බව, ලෙස, වෙනුවෙන්, ගැන, දී, වැනි, සේ
- PART: ය, ම, ද, ගැන, දී, ගේ, බව, යනු, ලෙස, සඳහා
- Prep
- PART: නො
- Post
- AdvType
- Loc
- ADV: එහි, මෙහි
- Man
- ADV: මුළුමනින්, අඛණ්ඩව, එලෙස, එසේ, නිදහසේ, මැනැවින්, ශීඝ්ර, හැබෑවට
- Tim
- ADV: දැන්, අද, එදා, තෙවනුව, පෙර, අවසානයේ
- Loc
- Foreign
- Yes
- PROPN: කොසෝවෝ, ෂැවොලින්, පලස්තීනය, සර්බියානු
- Yes
- Typo
- Yes
- NOUN: ප්රධානයා
- PRON: ඔව්හු
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: වෙ.
- This corpus uses 10 lemmas as auxiliaries (aux). Examples: තිබෙ, ඇත, හැකි, නැත, යුතු, වෙ, තිබ, නෑ, පවති, සිටි.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: ලබ.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN-Acc (1)
- VERB-Conv--NOUN-Nom (3)
- VERB-Fin--NOUN-Acc (3)
- VERB-Fin--NOUN-Ben (1)
- VERB-Fin--NOUN-Dat (2)
- VERB-Fin--NOUN-Nom (3)
- VERB-Fin--PRON-Nom (1)
- VERB-Ger--NOUN-Acc (1)
- VERB-Ger--NOUN-Nom (2)
- VERB-Inf--NOUN-Acc-ADP(ම) (1)
- VERB-Inf--PRON-Abl (1)
- VERB-Inf--PRON-Dat (1)
- VERB-Inf--PRON-Nom (1)
- VERB-Part--NOUN-Acc (6)
- VERB-Part--NOUN-Acc-ADP(සඳහා) (1)
- VERB-Part--NOUN-Dat (1)
- VERB-Part--NOUN-Ine (1)
- VERB-Part--NOUN-Nom (3)
- VERB-Part--PRON-Dat (1)
- VERB-Part--PRON-Nom (7)
- obj
- VERB-Conv--NOUN-Acc (2)
- VERB-Fin--NOUN-Acc (3)
- VERB-Fin--NOUN-Acc-ADP(ම) (1)
- VERB-Fin--NOUN-Acc-ADP(ලෙස) (1)
- VERB-Fin--NOUN-Nom (2)
- VERB-Inf--NOUN-Acc (3)
- VERB-Inf--NOUN-Acc-ADP(සේ) (1)
- VERB-Part--NOUN-Acc (6)
- VERB-Part--NOUN-Nom (1)
- VERB-Part--PRON-ADP(බව) (1)
Relations Overview
- This corpus uses 10 relation subtypes: advmod:emph, aux:pass, compound:lvc, compound:prt, compound:svc, det:poss, nmod:poss, nmod:tmod, obl:lmod, obl:tmod
- The following 13 relation types are not used in this corpus at all: iobj, vocative, expl, dislocated, discourse, appos, clf, fixed, list, parataxis, orphan, goeswith, reparandum