Kalmasoft Part of Speech Tagset
Synopsis
Part of speech tagging is the process of selecting the most likely sequence of syntactic categories for the words in a sentence. It determines grammatical characteristics of the words, such as part of speech, grammatical number, gender, person, etc. In the case of Arabic language, this task is not a trivial one since most of the words are ambiguous as a result of the absence of vowels. KTagset system also uses a special tagset for Named Entity Recognition designed for the purposes..
Information
Reference: MSLTAG
Last updated: 22/1/2023
Preview
Kalmasoft's Tagset (© KTagset) is the generic tagset for the Arabic PoS Tagger, it is the default tagset used by the system, but many other mappings are available as optional.
KTagset
A tag is string of twenty two characters grouped in three 4-letters sets and one 10-letters set [4-10-4-4], the 10 letters ends with two digits to indicate the language variety while the rest of letters have their different grammatical notation, each letter may have different representation depending on the set it resides in and the specific position it occupies, basically the tag string is case sensitive and broadly categorized as follows {syntax}{morphology}{semantics}{ontology}.
"يستبدلانكن" => {VIIA}{TA3DM2PF10}{••••}{••••}
ترميز كلماسوفت (KTagset) يستخدم سلسلة من اثنين وعشرين حرفاً موزعة إلى أربعة مجموعات الثانية منها تضم عشرة أحرف تنتهي برقم يبين مستوى اللغة بينما البقية تتألف من أربعة لكل مجموعة، أي حرف في الترميز يأخذ وظيفته بحسب المجموعة وترتيبه داخلها، الترميز مرتب إلى الوظائف التالية (النحو، الإملاء، الدلالة، التكوين).
Position | Tag | English | Arabic |
---|---|---|---|
1 | N | noun | إسم |
1 | V | verb | فعل |
1 | P | particle | أداة |
1 | S | symbol | رمز |
1 | D | number | رقم |
1 | L | script | كتابة |
1 | E | entity | مسمى |
1 | X | unparsed | مجهول |
• | not applicable | غير مطلوب | |
Tenses | الأزمان | ||
2 | P | perfective, past | ماض |
2 | I | imperfective, present | مضارع |
2 | F | future | مستقبل |
Moods | البناء | ||
3 | I | indicative | مبني على الضم |
3 | S | subjunctive | مبني على الفتح |
3 | M | imperative | أمر |
3 | J | jussive | مجزوم |
3 | E | emphatic | فعل مؤكد |
Voices | الصيغة | ||
4 | A | active voice | مبني للمعلوم |
4 | P | passive voice | مبني للمجهول |
Transitivity | التعدي | ||
5 | I | intransitive | لازم |
5 | T | transitive | متعد |
5 | D | ditransitive | متعد لمفعولين |
5 | A | ambitransitive | متعد ولازم |
Forms | الأوزان | ||
6 | 1-9 | Form 1-9 | فَعلَ, فَعَّلَ, فاعَلَ, أفْعَلَ, تَفَعَّلَ, تَفاعَلَ, اِنْفَعَلَ, اِفْتَعَلَ, اِفْعَلَّ |
6 | A-F | Form 10-15 | اِسْتَفْعَلَ |
Nouns | الأسماء | ||
2 | M | verbal noun (Masdar) | مصدر |
2 | C | active participle | اسم فاعل |
2 | P | passive participle | اسم مفعول |
2 | H | hyperbolic participle | صيغة مبالغة |
2 | S | superlative | اسم تفضيل |
2 | I | noun of utilization (instrumental noun) | اسم آلة |
2 | B | Broken plural | جمع تكسير |
Cases | الحالة | ||
3 | N | nominative | حالة الرفع، مرفوع |
3 | A | accusative | حالة النصب، منصوب |
3 | G | genetive, possessive | حالة الجر، مجرور |
Derivatives | المشتقات | ||
4 | E | relative nominal construct | مصدر صناعي |
4 | D | diminutive | صيغة تصغير |
4 | Q | numerative noun | اسم مرة |
4 | H | instance noun | اسم هيئة |
4 | T | temporal noun | اسم زمان |
4 | L | locative noun | اسم مكان |
4 | A | adjective | صفة |
4 | J | relative adjective | نسبة |
4 | B | quasiverbal adjective | صفة مشبهة |
4 | R | interrogative | استفهام |
4 | V | adverb | حال |
4 | P | pronoun | ضمير |
4 | U | personal pronoun | ضمير منفصل |
4 | W | relative pronoun | إسم موصول |
4 | M | demonstrative pronoun | إسم إشارة |
4 | N | proper noun | اسم صحيح |
4 | Z | temporal adverb | ظرف زمان |
4 | K | locative adverb | ظرف مكان |
4 | X | reflexive pronoun | ضمير |
4 | S | possessive pronoun | |
4 | C | cardinal number | العدد |
4 | O | ordinal number | الترتيب |
4 | F | definite | معرف |
4 | I | indefinite | نكرة |
Particles | الأدوات | ||
2 | C | conjunction | عطف، أداة عطف |
2 | P | preposition | حرف جر |
2 | D | definite article | أداة تعريف |
2 | R | interrogative | أداة استفهام |
2 | N | conditional | أداة شرط |
2 | M | simile | أداة تشبيه |
2 | E | emphasis | أداة توكيد |
2 | X | exclusion | الاستثناء |
2 | I | interjection | |
2 | S | postposition | |
Symbols | الرموز | ||
2 | P | punctuation | ترقيم |
2 | C | currency | عملة |
2 | M | math | حساب |
2 | D | date | تاريخ |
2 | T | time | وقت |
acronym | بادئة | ||
abbreviation | إختصار | ||
Person, Number, Gender | الضمائر والعدد والجنس | ||
7, 10 | 1 | first person | متكلم |
7, 10 | 2 | second person | مخاطب |
7, 10 | 3 | third person | غائب |
8, 11 | S | singular | مفرد |
8, 11 | D | dual | مثنى |
8, 11 | P | plural | جمع |
9, 12 | M | masculine | مذكر |
9, 12 | F | feminine | مؤنث |
9, 12 | U | unisex | مستوي الجنس |
9, 12 | N | neuter | عديم الجنس |
M | sound masculine plural | جمع مذكر سالم | |
F | sound feminine plural | جمع مؤنث سالم | |
L | collective noun | إسم جمع | |
U | mass noun | اسم غير المعدود | |
Radicals | الجذور | ||
root | جذر | ||
sound | صحيح | ||
defective | معتل | ||
triconsonontal root | جذر ثلاثي صحيح | ||
quadriliteral root | جذر رباعي | ||
Hamzated | جذر مهموز | ||
geminated | جذر مضعف | ||
Hollow verb | فعل أجوف | ||
Weakened verb | فعل ناقص | ||
Assimilated verb | فعل مثال | ||
I | initial | أولي | |
M | medial | وسطي | |
F | final | طرفي | |
Ontology | التكوين | ||
negation | النفي | ||
negative | منفي | ||
affirmative | مثبت | ||
A | inanimate | جماد | |
I | animate | حي | |
P | paired | مزدوج | |
O | odd | فردي | |
Language varieties | اللهجات | ||
13-14 | 10 | Modern Standard Arabic | العربية الفصحى |
Named Entities | المسميات | ||
E1 | PER | Person | شخص |
E1 | LOC | Location | موقع |
E1 | ORG | Organization | مؤسسة |
E1 | QTY | Quantity | كمية |
E2 | FAC | Facility | مرفق |
E2 | PPL | Populated Place | مكان مأهول |
E2 | TTL | Title | لقب |
E2 | VNT | Event | حدث |
E2 | NAT | Phenomenon | ظاهرة |
E2 | LAN | Language | لغة |
E2 | DAT | Date | تاريخ |
E2 | TIM | Time | وقت |
E2 | NUM | Number | رقم |
E2 | PRC | Percent | نسبة |
E2 | MON | Money | نقود |
E2 | STR | Astronomical | جرم |
E2 | DIS | Disease | مرض |
E2 | ORD | Ordinal | ترتيب |
E2 | CRD | Cardinal | عدد |
E2 | GRP | Group | مجموعة |
E3 | PRO | Product | منتج |
E3 | FAM | Famous | مشهور |
E3 | MRK | Landmark | معلم |
E3 | COR | Corporation | شركة |