Treebank Statistics: UD_Hebrew-HTB: POS Tags: NOUN
There are 4200 NOUN
lemmas (38%), 6946 NOUN
types (37%) and 38046 NOUN
tokens (24%).
Out of 15 observed tags, the rank of NOUN
is: 1 in number of lemmas, 1 in number of types and 1 in number of tokens.
The 10 most frequent NOUN
lemmas: בית, _, שנה, איש, יום, חברה, דבר, משרד, מדינה, ארץ
The 10 most frequent NOUN
types: בית, יום, משרד, משטרה, %, שר, משפט, ארץ, ממשלה, חברה
The 10 most frequent ambiguous lemmas: _ (NOUN 365, VERB 326, ADJ 230, ADV 192, AUX 169, CCONJ 109, X 76, PRON 57, SCONJ 46, DET 33), ארץ (NOUN 172, PROPN 1), בן (NOUN 167, PROPN 27), שר (NOUN 158, VERB 2), דרך (NOUN 143, ADP 6, VERB 2), חודש (NOUN 133, X 1), פה (NOUN 128, ADV 8, PROPN 2), חבר (NOUN 126, VERB 1), קבוצה (NOUN 121, X 1), עובד (NOUN 118, VERB 1)
The 10 most frequent ambiguous types: בית (NOUN 296, X 1), שר (NOUN 141, VERB 1), ארץ (NOUN 136, PROPN 1), חברה (NOUN 122, VERB 1), פועל (NOUN 116, VERB 8), משחק (NOUN 104, VERB 5, X 1), פי (NOUN 99, PROPN 10, ADV 7), חוץ (NOUN 92, ADP 4, ADV 3), דרך (NOUN 88, ADP 6, VERB 1), עובדים (NOUN 77, VERB 6)
- בית
- שר
- NOUN 141: שר ה אוצר ימנה עובד מ משרד_ של _הוא ש יהיה אחראי על מאגר זה .
- VERB 1: ה קולנוע הוא ללא ספק ה מקום ה מושלם ל דיון ב פנטסיות ; פס ה קול ה מוסיקלי נושא איכויות הוליוודיות , ו לעתים הופך ה סרט ל מיוזיקל ; כאשר קולף ו ה מלכה רוקדים את ה וולס של_ הם , בין אורות ו צללים , ב ה מועדון של ה שכונה , יושב ל_ הוא רפאל קלצקין , ב תפקיד קבצן מקומי , ו שר ל נסים עזיקרי את “ ציפור מכנסי ה שבת של _אני “ .
- ארץ
- חברה
- פועל
- משחק
- פי
- חוץ
- דרך
- עובדים
Morphology
The form / lemma ratio of NOUN
is 1.653810 (the average of all parts of speech is 1.702584).
The 1st highest number of forms (215) was observed with the lemma “_”: __, אבדן, אביב, אדם, או”ם, אוכלי, אוריאה, אחת, איחוד, איש, אנדוקרינולוגיה, אסטרטגיה, אסיפה, אקמה, ארץ, אתיאיזם, בא, באי, באס, בג”ץ, בוסריותו, בחירות, ביהמ”ש, ביולוגיה, בית, ביתך, במאי, בניין, בעייתיות, בקיאיה, בשר, גדול, גדעונים, גובהה, גודו, גוני, גוף, גיהאד, גילופין, דאבל, דומני, דוקטור, דיסקרציה, דיפרנסיאס, דמי, ה”ה, הגזת, הופיעו, הוקוס, החסרונות, היטל, הינדים, הכל, המשך, הנדסאים, הפריית, השכלה, התייחסו, זכאי, זנב, ח, ח”כ, חאג, חבר, חברה, חברות, חולונים, חוץ, חילול, חסרת, חצי, חצר, טראנספר, יום, יורדי, יושביו, יחידה, יחסים, ימים, ינקים, יצואן, יתו, יתר, כולם, כלי, כללי, כנסת, כתבתך, לבותיהן, לבך, לימפה, מאציזמו, מבנים, מהלכים, מהנהיגות, מו”לות, מו”ם, מו”ף, מולוקולות, מחוז, מחסום, מטמון, מי”ל, מינסוטים, מישנהו, מכשיר, מכתב, מע”ם, מפלגת, מפעל, מצב, מצבים, מק”ם, מקרים, מרכז, משק, משקפיים, נ”ל, נאורלוג, נאות, ניגוסים, ניו, נס, נסותה, נפאלי, סביבן, סופר, סוציאל, סטאזר, סטאזרים, סטנדרד, סכו”ם, סכסכוך, סלקציה, סנסאציה, ספורט, ספזטינו, סקלופיני, סרגלים, ע”א, ע”ר, עבר, עד, עולם, עין, עכואים, עלייה, עלת, עשתונותיו, פאי, פאנטום, פדרל, פוטבול, פולחן, פועל, פורדים, פילנטרופואידים, פמלייתו, פנים, פקוע, פקידי, פרופיל, פרוץ, צדקת, צימצום, צימרים, ציפיות, צפי, קול, קופ”ח, קיטש, קש, רבות, רבי, רבע, רגל, רגלו, רגליו, רגשי, רובם, רובן, רוקפלרים, רח, רמדאן, רנסאנס, רפובליקאים, רצועה, רצח, ש”ח, שב”ך, שב”ס, שבועיים, שבחי, שחומי, שיויוון, שיח, שים, שיפוצניק, שיקול, שיתוף, שמשונים, שעה, שפע, שרפות, תבלינים, תגבר, תוארי, תובנה, תוככי, תחנה, תימנחיה, תנ”ך, תנאים, תקציבי, תשנא.
The 2nd highest number of forms (10) was observed with the lemma “איש”: איש, איש_, אישה, אנשי, אנשים, אשה, אשת, נשות, נשי, נשים.
The 3rd highest number of forms (7) was observed with the lemma “ועדה”: וועדה, וועדות, וועדת, ועדה, ועדה_, ועדות, ועדת.
NOUN
occurs with 4 features: Number (37509; 99% instances), Gender (37499; 99% instances), Definite (11797; 31% instances), Abbr (595; 2% instances)
NOUN
occurs with 11 feature-value pairs: Abbr=Yes
, Definite=Cons
, Definite=Def
, Gender=Fem
, Gender=Fem,Masc
, Gender=Masc
, Number=Dual
, Number=Dual,Plur
, Number=Plur
, Number=Plur,Sing
, Number=Sing
NOUN
occurs with 38 feature combinations.
The most frequent feature combination is Gender=Masc|Number=Sing
(11088 tokens).
Examples: משפט, פועל, שבוע, אביב, מקום, אדם, דבר, חוץ, דולר, אוצר
Relations
NOUN
nodes are attached to their parents using 24 different relations: obl (9139; 24% instances), compound:smixut (7430; 20% instances), nsubj (5641; 15% instances), nmod (5500; 14% instances), obj (3216; 8% instances), conj (2312; 6% instances), nmod:poss (1007; 3% instances), dep (903; 2% instances), appos (619; 2% instances), root (585; 2% instances), fixed (411; 1% instances), flat:name (294; 1% instances), nsubj:cop (287; 1% instances), acl (167; 0% instances), acl:relcl (165; 0% instances), ccomp (91; 0% instances), advcl (71; 0% instances), parataxis (59; 0% instances), amod (58; 0% instances), nsubj:outer (39; 0% instances), xcomp (28; 0% instances), dislocated (12; 0% instances), nummod (11; 0% instances), flat (1; 0% instances)
Parents of NOUN
nodes belong to 14 different parts of speech: NOUN (17231; 45% instances), VERB (17138; 45% instances), ADJ (1253; 3% instances), PROPN (698; 2% instances), (585; 2% instances), ADP (401; 1% instances), ADV (204; 1% instances), NUM (173; 0% instances), AUX (154; 0% instances), PRON (146; 0% instances), CCONJ (21; 0% instances), X (19; 0% instances), DET (14; 0% instances), SCONJ (9; 0% instances)
3806 (10%) NOUN
nodes are leaves.
10524 (28%) NOUN
nodes have one child.
12943 (34%) NOUN
nodes have two children.
10773 (28%) NOUN
nodes have three or more children.
The highest child degree of a NOUN
node is 48.
Children of NOUN
nodes are attached using 34 different relations: case (14846; 19% instances), det (13705; 18% instances), compound:smixut (8449; 11% instances), amod (6820; 9% instances), nmod (6746; 9% instances), punct (5031; 7% instances), nmod:poss (4024; 5% instances), acl:relcl (2493; 3% instances), conj (2293; 3% instances), cc (1840; 2% instances), nummod (1602; 2% instances), case:gen (1531; 2% instances), case:acc (1431; 2% instances), flat:name (1137; 1% instances), appos (956; 1% instances), advmod (941; 1% instances), dep (672; 1% instances), nsubj (598; 1% instances), acl (564; 1% instances), cop (549; 1% instances), mark (335; 0% instances), nsubj:cop (236; 0% instances), compound:affix (73; 0% instances), advcl (66; 0% instances), fixed (40; 0% instances), parataxis (37; 0% instances), xcomp (30; 0% instances), obj (14; 0% instances), ccomp (10; 0% instances), nsubj:outer (5; 0% instances), mark:q (4; 0% instances), obl (4; 0% instances), dislocated (1; 0% instances), flat (1; 0% instances)
Children of NOUN
nodes belong to 14 different parts of speech: ADP (17720; 23% instances), NOUN (17231; 22% instances), DET (13078; 17% instances), ADJ (6756; 9% instances), PUNCT (5031; 7% instances), PRON (4299; 6% instances), PROPN (3680; 5% instances), VERB (3142; 4% instances), NUM (2185; 3% instances), CCONJ (2017; 3% instances), ADV (1171; 2% instances), SCONJ (373; 0% instances), AUX (361; 0% instances), X (40; 0% instances)