Kalmasoft Part of Speech Tagset

Synopsis

Part of speech tagging is the process of selecting the most likely sequence of syntactic categories for the words in a sentence. It determines grammatical characteristics of the words, such as part of speech, grammatical number, gender, person, etc. In the case of Arabic language, this task is not a trivial one since most of the words are ambiguous as a result of the absence of vowels. KTagset system also uses a special tagset for Named Entity Recognition designed for the purposes..

Information

Reference: MSLTAG

Last updated: 22/1/2023

Preview

Kalmasoft's Tagset (© KTagset) is the generic tagset for the Arabic PoS Tagger, it is the default tagset used by the system, but many other mappings are available as optional.

KTagset

A tag is string of twenty two characters grouped in three 4-letters sets and one 10-letters set [4-10-4-4], the 10 letters ends with two digits to indicate the language variety while the rest of letters have their different grammatical notation, each letter may have different representation depending on the set it resides in and the specific position it occupies, basically the tag string is case sensitive and broadly categorized as follows {syntax}{morphology}{semantics}{ontology}.

"يستبدلانكن" => {VIIA}{TA3DM2PF10}{••••}{••••}

ترميز كلماسوفت (KTagset) يستخدم سلسلة من اثنين وعشرين حرفاً موزعة إلى أربعة مجموعات الثانية منها تضم عشرة أحرف تنتهي برقم يبين مستوى اللغة بينما البقية تتألف من أربعة لكل مجموعة، أي حرف في الترميز يأخذ وظيفته بحسب المجموعة وترتيبه داخلها، الترميز مرتب إلى الوظائف التالية (النحو، الإملاء، الدلالة، التكوين).


Position Tag English Arabic
1 N noun إسم
1 V verb فعل
1 P particle أداة
1 S symbol رمز
1 D number رقم
1 L script كتابة
1 E entity مسمى
1 X unparsed مجهول
not applicable غير مطلوب
Tenses الأزمان
2 P perfective, past ماض
2 I imperfective, present مضارع
2 F future مستقبل
Moods البناء
3 I indicative مبني على الضم
3 S subjunctive مبني على الفتح
3 M imperative أمر
3 J jussive مجزوم
3 E emphatic فعل مؤكد
Voices الصيغة
4 A active voice مبني للمعلوم
4 P passive voice مبني للمجهول
Transitivity التعدي
5 I intransitive لازم
5 T transitive متعد
5 D ditransitive متعد لمفعولين
5 A ambitransitive متعد ولازم
Forms الأوزان
6 1-9 Form 1-9 فَعلَ, فَعَّلَ, فاعَلَ, أفْعَلَ, تَفَعَّلَ, تَفاعَلَ, اِنْفَعَلَ, اِفْتَعَلَ, اِفْعَلَّ
6 A-F Form 10-15 اِسْتَفْعَلَ
Nouns الأسماء
2 M verbal noun (Masdar) مصدر
2 C active participle اسم فاعل
2 P passive participle اسم مفعول
2 H hyperbolic participle صيغة مبالغة
2 S superlative اسم تفضيل
2 I noun of utilization (instrumental noun) اسم آلة
2 B Broken plural جمع تكسير
Cases الحالة
3 N nominative حالة الرفع، مرفوع
3 A accusative حالة النصب، منصوب
3 G genetive, possessive حالة الجر، مجرور
Derivatives المشتقات
4 E relative nominal construct مصدر صناعي
4 D diminutive صيغة تصغير
4 Q numerative noun اسم مرة
4 H instance noun اسم هيئة
4 T temporal noun اسم زمان
4 L locative noun اسم مكان
4 A adjective صفة
4 J relative adjective نسبة
4 B quasiverbal adjective صفة مشبهة
4 R interrogative استفهام
4 V adverb حال
4 P pronoun ضمير
4 U personal pronoun ضمير منفصل
4 W relative pronoun إسم موصول
4 M demonstrative pronoun إسم إشارة
4 N proper noun اسم صحيح
4 Z temporal adverb ظرف زمان
4 K locative adverb ظرف مكان
4 X reflexive pronoun ضمير
4 S possessive pronoun
4 C cardinal number العدد
4 O ordinal number الترتيب
4 F definite معرف
4 I indefinite نكرة
Particles الأدوات
2 C conjunction عطف، أداة عطف
2 P preposition حرف جر
2 D definite article أداة تعريف
2 R interrogative أداة استفهام
2 N conditional أداة شرط
2 M simile أداة تشبيه
2 E emphasis أداة توكيد
2 X exclusion الاستثناء
2 I interjection
2 S postposition
Symbols الرموز
2 P punctuation ترقيم
2 C currency عملة
2 M math حساب
2 D date تاريخ
2 T time وقت
acronym بادئة
abbreviation إختصار
Person, Number, Gender الضمائر والعدد والجنس
7, 10 1 first person متكلم
7, 10 2 second person مخاطب
7, 10 3 third person غائب
8, 11 S singular مفرد
8, 11 D dual مثنى
8, 11 P plural جمع
9, 12 M masculine مذكر
9, 12 F feminine مؤنث
9, 12 U unisex مستوي الجنس
9, 12 N neuter عديم الجنس
M sound masculine plural جمع مذكر سالم
F sound feminine plural جمع مؤنث سالم
L collective noun إسم جمع
U mass noun اسم غير المعدود
Radicals الجذور
root جذر
sound صحيح
defective معتل
triconsonontal root جذر ثلاثي صحيح
quadriliteral root جذر رباعي
Hamzated جذر مهموز
geminated جذر مضعف
Hollow verb فعل أجوف
Weakened verb فعل ناقص
Assimilated verb فعل مثال
I initial أولي
M medial وسطي
F final طرفي
Ontology التكوين
negation النفي
negative منفي
affirmative مثبت
A inanimate جماد
I animate حي
P paired مزدوج
O odd فردي
Language varieties اللهجات
13-14 10 Modern Standard Arabic العربية الفصحى
Named Entities المسميات
E1 PER Person شخص
E1 LOC Location موقع
E1 ORG Organization مؤسسة
E1 QTY Quantity كمية
E2 FAC Facility مرفق
E2 PPL Populated Place مكان مأهول
E2 TTL Title لقب
E2 VNT Event حدث
E2 NAT Phenomenon ظاهرة
E2 LAN Language لغة
E2 DAT Date تاريخ
E2 TIM Time وقت
E2 NUM Number رقم
E2 PRC Percent نسبة
E2 MON Money نقود
E2 STR Astronomical جرم
E2 DIS Disease مرض
E2 ORD Ordinal ترتيب
E2 CRD Cardinal عدد
E2 GRP Group مجموعة
E3 PRO Product منتج
E3 FAM Famous مشهور
E3 MRK Landmark معلم
E3 COR Corporation شركة