معالج المعاني - نظام تصنيف النصوص العربية

الملخص

التصنيف (Part of Speech Tagging) هو تمييز أنواع مفردات النص ونظام تصنيف النص العربي يقوم بوصف المفردات إلى الأنواع المعروفة من حيث التذكير والتأنيث والإفراد والتثنية والجمع كما في حالة الأسماء أو أزمنة الفعل من ماض وحاضر وكذلك لتمييز الأدوات والضمائر وما إليها من الجوامد والمشتقات.

التصنيف يشمل أيضاً التعرف على المسميات (entities) والكشف عنها وتحديد أنواعها وتوصيف علاقاتها ببعضها وتصنيفها إلى فئات مختلفة من أجل الوصول إلى توصيف شامل للنص المستهدف.



موضوع مصاحب

يوجد موضوع علمي مصاحب يستحسن الإطلاع عليه من أجل تعريف أفضل بهذا المنتج.

- تسلسل الجمل
- بنية الجملة
- التصنيف الموسع

مابس سيمانقواعد البياناتالبرامج
نظام إعراب النصوص العربية المكنز العربي نظام تشكيل النص العربي
نظام تصنيف النصوص العربية قاعدة بيانات الجذور العربية نظام استخراج الجذور العربية
نظام معالجة الدلالة التكوينية الكلمات الدخيلة نظام تصريف الأفعال العربية
المصطلحات الدخيلة نظام توليد الاشتقاق للأسماء
  قواعد بيانات اللغات المحلية نظام رومنة الأسماء الجغرافية
  قاعدة بيانات الكلمات المفتاحية  

نظام التصنيف الموسع "Kalmasoft PoS Tagger" حسب تعريف كلماسوفت يعمل على تصنيف الكلمات إلى الأنواع النحوية بحيث يقترب من التصنيف الدلالي للكلمة وهو يختلف كثيراً عن المصنفات التقليدية المتوفرة للاستخدام المباشر، نظام التصنيف يميز كذلك الدخيل والأصيل باستعمال قواعد مبسطة لا تعتمد على التحليل النحوي، استعمالات النظام تظهر في تهيئة المكانز (Corpora) العربية وتصنيف مفرداتها لأن المكنز غير المصنف لا فائدة ترجى من استعماله خاصة إذا أريد توظيفه في التطبيقات اللغوية الإحصائية مثل الترجمة الآلية القائمة على النموذج الإحصائي (SBMT) أو استخراج المعلومات (Information Retrieval).

يعتمد نظام التصنيف على أسلوب جديد في تنظيم العلاقات النحوية بين أجزاء الكلام بحيث لا تكون مجرد صورة عن التقسيم القديم (اسم وفعل وحرف) المعمول به في المعاجم العربية التقليدية أو نسخة عن التقسيم المستخدم في تصنيف اللغات الأوروبية، المخطط أدناه يبين لمحة من التقسيم الذي يمتد بعمق يصل لخمس مستويات وينتشر لمئات البنود.

مخرجات النظام على غير المعتاد ليست ملف نصي يمكن التعامل مع محتوياته بل ملف مشفر بطريقة خاصة بكلماسوفت وذلك لأن النظام مخصص للتعامل مع كميات كبيرة من النصوص أي ملايين الكلمات ومن غير المتوقع أن يعمد المستخدم للتعامل مع تفاصيل ملف نصي يحتوي ملايين الكلمات كأن يقوم بتغيير كلمة أو تعديل سطر، لذا فإن الطريقة الوحيدة للتعامل مع ملفات المكانز العربية تكون من واجهة النظام تعديلاً ومطالعة ولهذا السبب فإن النظام يوفر إمكانات متعددة للتحكم في طريقة التصنيف.

من بين هذه الطرق يمكن إخراج نتيجة التصنيف إلى ملف يمكن تصفحه باستخدام أي من متصفحات الإنترنت المتوفرة حيث ويتم تضمين الرموز بحيث تظهر عند المرور على الكلمات بالماوس بينما ذات رموز التصنيف مبينة نصياً عقب كل كلمة بطريقة مختصرة، ويمكن أيضاً الإخراج إلى نسق (XML، JSON) حيث يمكن استخدام أدوات أخرى للاستفادة القصوى من عملية تبادل المعلومات التي يوفرها هذا النسق.

يتيح النظام عمليات أخرى من بينها التعرف على المسميات (Named Entity Recognition) ويوفر نصوص موسمة (Annotated text) إما مدمجة مع النص المصنف أو في ملفين منفصلين لكل عملية ملف مخصص.


sliding window

مصنف الكلمات العربية
صورة لواجهة البرنامج، يمكنك تصفح المواصفات الفنية للنظام. أو تنزيل النسخة التجريبية.

مصنف الكلمات العربية
صورة لنافذة عرض المسميات التي تم التعرف عليها.

تبيين السلاسل المصنفة
تبيين المحتوى للسلاسل المصنفة.

V: فعلA: صفةC: أداة عطف
N: اسمPr: حرف جرa: ظرف
d: اسم إشارةr: اسم موصولF: كلمة أعجمية
O: اسم عددE: مصدر:
R: ضميرT: خطأ إملائيX: غير محدد
 
A: مبني للمعلومM: فعل أمرM: مذكر
P: مبني للمجهولJ: مجزومF: مؤنث
P: ماضيE: مؤكد بنون التوكيد1: المتكلم
I: حاضر ومستقبلS: مفرد2: المخاطب
I: مرفوعD: مثنى3: الغائب
S: مبني على الفتحP: جمع

أنظر جدول الرموز الخاصة بالمصنف في هذه الصفحة.

تعددت وتنوعت الأزمات التي خلفتها الحرب في اليمن وأزمة الانقطاع الكامل لخدمة الكهرباء ضاعفت من معاناة سكان هذه البلاد ودفعتهم نحو مصادر الطاقة البديلة للتخفيف من آثار تلك الأزمة

رقم المفردة النحو الإملاء السابقة اللاحقة
1 تعددت VPIA 3PF•••
2 وتنوعت VPIA 053PF••• PC
3 الأزمات NNG ••••PF PD
4 التي PL
5 خلفتها VPIA 023SF3SF
6 الحرب NNN ••••S• PD
7 في PP
8 اليمن NN•G
9 وأزمة NF•G ••••SF PC
10 الانقطاع NF•G 07•SM PD
11 الكامل NA•G ••••SM PD
12 لخدمة NF•G ••••SF
13 الكهرباء N••G PD
14 ضاعفت VPIA 033SF•••
15 من PP
16 معاناة NF•G 03•SF
17 سكان NQ•G ••••BM
18 هذه PD
19 البلاد N••G PD
20 ودفعتهم VPIA 013SF3PM PC
21 نحو NV
22 مصادر NF•A ••••PM
23 الطاقة N••G ••••SF PD
24 البديلة NA•G ••••SF PD
25 للتخفيف NF•G PP
26 من PP
27 آثار NF•G ••••B•
28 تلك PD
29 الأزمة NF•G ••••SF

البداية » المعالج اللغوي » معالج المعاني » نظام تصنيف النصوص العربية

المرجع MSLTAG | الفئة البرامج | العائلة MAPSSEMANL | آخر تحديث 19/12/2019