معالجة اللغة العربية Arabic Natural Language Processing – صعوبة اللغة العربية للـ NLP (الجزء الرابع)

317

تعد اللغة العربية إحدى أكثر اللغات استخداما على الإنترنت ويبلغ متحدثيها حوالي 300 مليون فرد. لذلك فتطوير نظم NLP للغة العربية هدف مهم للتواصل مع هؤلاء واستيعاب اللغة العربية في تطبيقات تتماشى مع طبيعتها وتراثها.

في هذا المقال سنتحدث عن اللغة العربية والمشاكل التي تواجه بناء تطبيقات NLP لها

هناك ثلاث هيئات للغة العربية:

  • العربية الفصحى Classical Arabic (CA)
    وهي ما يستخدم في النصوص التاريخية القديمة
  • العربية الفصحى الحديثة Modern Standard Arabic (MSA)
    وهي ما ندرسه ويستخدم في الأخبار والإعلام والترجمة
  • العربية العامية (لهجات) Dialectal Arabic (DA)
    وهي ما يستخدم في الكلام اليومي بين الناس

هناك بعض الاختلاف عن تعريف اللهجة، ويختلف علماء اللغة في تصنيف اللغات واللهجات. لكن المنطقة العربية تعتبر تتحدث باللغة العربية بلهجات مختلفة. تختلف اللهجات بعوامل جغرافية وسياسية ودينية. أشهر اللهجات للعربية:

  • المصرية
  • الشامية
  • الخليجية
  • الجزائرية، التونسية، المغربية
  • لهجات أخرى مثل السودانية والعراقية وغيرها

نلاحظ أن هذا التصنيف للهجات العامة لكن هناك تفصيل أكثر في اللهجة الواحدة مثل كلام أهل المدينة والأرياف والبدو.

يفهم معظم العرب الفصحى الحديثة MSA وتختلف كل لهجة بتغيرات وإضافات من الفصحى الأصلية. مثال:

  • كمال ماشتراش طربيزة جديدة (مصري)
  • كمال ماشتراش طاولة جديدة (شامي)
  • كمال ماشراش ميدة جديدة (مغربي)

أهمية دراسة لهجات العربية

تقريباً كل العرب الآن لا يقدرون على الحديث باللغة العربية الفصحى بشكل متصل. تنتشر اللهجات في معظم الكلام الغير نصي مثل التلفزيون والراديو. يزداد استخدام اللهجات بصورة مكتوبة في وسائط التواصل على الانترنت. هناك صلة لغوية قوية بين الفصحى الحديثة واللهجات المختلفة فلابد من دراستهما معاً.

صعوبة معالجة اللغة العربية

يرجع نقص مصادر الـ NLP للغة العربية إلى نقص في الموارد العلمية من labelled data وأبحاث مخصصة للـ NLP العربية، لكن أيضاً يجب أن نعلم أن ليست كل اللغات بنفس السهولة لتطوير نظم NLP، فمن الناحية اللغوية تتمتع العربية بخصائص تجعلها أكثر جماًل وأفصح تعبيرًا ولكن هذا يصعب عملية التحليل اللغوي وبناء تطبيقات كمبيوتر تتمكن من معالجة اللغة. وهذه بعض الخصائص التي تتواجد بصورة أكبر في العربية عن الإنجليزية:

  • الغموض الإملائي وتناقضه Orthographic Ambiguity & Inconsistency
    بسبب اتصال الحروف الضمائر بالكلمات واستخدام التشكيل بدل من الحروف المتحركة vowels مما يعدد طرق كتابة الكلمات خاصة في اللهجات
  • التنوع الصرفي Morphological inflections
    استخدام اللغة العربية للمصادر (جذور) وتغيير شكل الكلمة لتعبر عن معاني مختلفة بنفس المصدر يجعلها أكثر صعوبة للفهم بالنسبة للكمبيوتر. بينما تعتمد الإنجليزية أكثر على الإضافات prefix & suffix
  • الحرية في ترتيب الكلمات Word order freedom
    من طرق إظهار البلاغة في اللغة العربية تقديم وتأخير الكلمات مثل المبتدأ والخبر والفاعل لتقوية وإبراز المعنى المراد، لكن هذا التغير قد يحير الكمبيوتر في الفهم خاصة إذا كان الكلام بدون تشكيل يساعد على التعرف على إعراب الكلمات
  • تنوع اللهجات Dialectal variation
    تتنوع اللهجات العربية وتختلف كثيراً في المفردات والنحو عن الفصحى، بينما في لغات مثل الإنجليزية يكون تنوع اللهجات أقل بكثير ويلتزم بصورة أكبر لسياق المفردات والنحو.

مشاكل الخط العربي والترميز Arabic Script & Encoding

في بدايات تطوير نظم الكمبيوتر كانت اللغة الإنجليزية هي المستخدمة وتم تطوير ترميز ASCII ليمثل حروف الإنجليزية في الشاشات ويكتبها من اليسار لليمين. أدى تأخر تطوير نظم للعربية إلى بعض المشاكل في الترميز وكتابة التشكيل فوق الحروف، إضافة إلى مشاكل خلط العربية مع الإنجليزية يخلط الكلمات بسبب اختلاف اتجاه الكلام (العربية من اليمين لليسار). قد يمر بكم مشاكل كثيرة في لغات برمجة Java و Python 2 و R بسبب الـ encoding واختلافه بين نظم التشغيل Windows و Mac و Linux. تتحسن أوضاع الـ encoding الآن وهناك اتجاه إلى توحيد استخدام الـ UTF-8 ولكن إذا حاولت استخدام code قديم لنظام NLP للعربية قد تعانون كثيراً فقط لضبط الـ encoding.

النطق والهجاء Phonology & Spelling

يسهل هجاء اللغة العربية من السمع، لكن للكمبيوتر فإن الفرق بين التشكيل وحروف المد يكون صعوبة في الهجاء، وكذلك هناك الهمزات التاء المربوطة والهمزات

كَبَر – كَابَر

شعرة – شعره

بهاءه – بهاؤه – بهائه

بينما تستخدم الإنجليزية حروف متحركة vowels لتوضيح المدود

Ths s wht n rbic txt lks lk wth n vwls

This is what an Arabic text looks like with no vowels

كذلك نجد تنوع كبير في الأسماء المعربة

شوارزنيغرSchwarzenegger
شوارزنغر
شوارزنيجر
شوارتزنجر

تغير بعض اللهجات من نقط بعض الحروف الأساسية ولكن ليس في كل الحالات مما يجعل التمييز أصعب مثل نطق القاف “ق” ألف “أ” في اللهجة المصرية

ألم (قلم) – إفل (قفل) – قاموس (قاموس) – قوس (قوس)

هناك أيضاً اختلاف واسع في هجاء الكلمة الواحدة حتى في نفس الفقرة عندما يكتب بالعامية!

بص للسماء جميلة … والسما فيها طيور

أخيراً وليس آخراً استخدام الأبجدية اللاتينية لهجاء العربية، ويكون بدون قواعد ثابتة ولكن بحدس الشخص الذي يكتب ويعاني من المشاكل السابقة بصورة أوضح. مثال في التشكيل والمد كلمة “هأقابلك”

Ha2ablak – h2ablk – h2ablak

هناك نظم تسعى لحل هذه المشاكل وتوحيد صورة النص العربي مثل

CODA: A Conventional Orthography for Dialectal Arabic

3arrib: CADIM’s Arabizi-to-Arabic Conversion

يمكن التعرف عنها أكثر من المصادر آخر المقال.

الصرف Morphology

علم الصرف يعرب به هيئات الكلمة ومعاني كل منها ودلالة كل تغيير في الهيئة سواء لفظي أو معنوي.

فهناك نوعان من الصرف

النوع الأول هو الصرف الاشتقاقي Derivational Morphology الذي يهدف لتكوين كلمات جديدة، ويعتمد على قوالب وقواعد لتوليد الكلمات.

مثال:

اسم الفاعل على وزن فـ ـا ـعـ ـل

كـ ـتـ ـب – كـ ـا ـتـ ـب

وهذه القواعد النحوية تولد الفاعل والمفعول وصيغ المبالغة …

ولكن المصدر (الجذر) الواحد يمكن أن يكون له أكثر من معنى وعليه يترتب معاني مشتقاته مما يصعب التمييز على الكمبيوتر

مثال:

لَحْم بمعنى (الأكل) meat وحينها لَحَّام بمعنى butcher

لَحَم بمعنى (لصق المعادن) solder وحينها لِحَام بمعنى soldering tin

النوع الثاني هو الصرف التحويلي Inflectional Morphology الذي يهدف لتغير صفات الكلمة مثل الزمن والجمع والمخاطب

مثال: المثنى بإضافة “ـان” وجمع المذكر السالم بإضافة “ـون”

أكتب – نكتب – تكتبان – تكتبون

مثال: الحروف و “الـ” للتعريف

الكتاب – فكتب – بالحديقة

الهدف من دراسة علم الصرف هو التعرف على الغموض اللغوي في تصريفات الكلمات، فنرى أن اللغة العربية تحظى بقدرة تعبيرية أعلى من الإنجليزية أي أن متوسط نسبة الكلمات بالعربية للكلمات بالإنجليزية للتعبير عن نفس المعنى تقريباً 80%. ولكن هذا أيضا يجعل اللغة العربية أكثر تنوعاً صرفياً لدرجة الضعف مقارنة بالإنجليزية مما يصعب عملية تمييز الكلمات وتحديد أنواعها للكمبيوتر في نظم الـ NLP.

وكثيراً ما نحتاج السياق للتمييز لأن الكلمة وحدها لها معنيان مختلفان حتى مع نفس الهجاء والتشكيل

مثال: تكتب – قد تعني “هي تكتب” أو “أنت تكتب” وهذا قد يفرق كثيراً في تطبيقات استخراج المعلومات وإجابة الأسئلة Information Extraction & Question Answering

ومن عوامل صعوبة الـ NLP في اللغة العربية هي عدم وجود حروف كبيرة وصغيرة uppercase & lowercase وهو من أكبر مميزات الأسماء والأعلام Named Entities في الإنجليزية لأنها دائما تكتب بـ uppercase.

النحو Syntax

يبحث علم النحو في أصول تكوين الجمل وقواعد الإعراب، وله صلة وثيقة بعلم الصرف. فالهيئات المتعددة للكلمات تنوع من شكل الجمل ودور كل كلمة فيها. للغة العربية قدرة على تغير ترتيب الكلمات بصورة غير مشبوهة في اللغة الإنجليزية وعادة يستخدم هذا في إطار بلاغي لإيضاح المعنى

كما نعرف من النحو أن هناك جملة اسمية وجملة فعلية ولكل صفات وضوابط. نرى اختلافات في هذه التركيبات في اللهجات. مثال في توافق تصريف الفعل مع الفاعل

فصحى: كتب الأولاد الشعر – الأولاد كتبوا الشعر

عامية: كتبو الأولاد الشعر – الأولاد كتبو الشعر

كما يضاف إلى الكلام العامي حروف وضمائر زائدة. مثال إظهار الضمير في أول الجملة وتأكيد النفي “ما” في الأول مع “ـش” في الأخر

فصحى: لم يذهب إلى العمل

عامية: هو ماراحش الشغل

هذه الظواهر وغيرها تجعل عملية الإعراب Parsing أصعب للكمبيوتر، فالتغيرات النحوية والصرفية الكثيرة تجعل اللغة أغنى وأكثر تعبيراً لكنها أيضاً تزيد حجم الداتا المطلوبة للتعلم الآلي.

كما أن الإعراب Parsing في الـ NLP يعتمد بشكل كبير على تحديد أقسام الكلام Part-of-Speech وهو يصعب في العربية بسبب غنى اللغة في الصرف وأشكال الكلمات.

وإذا أردنا إعراب Parsing اللهجات فإما أن نأتي بالـ annotated data وهي عملية مكلفة جداً خاصة أن اللهجات كثيرة والاختلاف بينها كبير. الحل الآخر هو الاستفادة من أنظمة الإعراب الفصحى ومحاولة تحويل اللهجة إلى الفصحى. وهذا أمر ليس بسهل لكن يمكن الاعتماد على قواعد تحويل مكتوبة rule based تغنينا عن تجميع الداتا المكلفة.

الترجمة الآلية Machine Translation

تعد الترجمة الآلية من أهم التطبيقات للـ NLP فاستخداماتها متعددة ومطلوبة في كافة المجالات، والترجمة ليست فكرة جديدة بل هي وسيلة لتطوير المحتوى العلمي وتحسين التواصل بين الشعوب عبر التاريخ.

مع ازدهار تقنيات الكمبيوتر ظهر طلب كبير للترجمة الآلية لأن الترجمة من أصعب المهام التي يقوم بها الإنسان، فهي تتطلب فهم اللغتين المترجم بينهما وفهم سياق الكلام لتكون الترجمة صحيحة في المعنى، فليس الأمر سهلا مجرد ترجمة الكلمات بقاموس!

ومن أهمية الترجمة قيل أنها بمثابة Turing Test للذكاء الصناعي، فإذا استطاع نظام كمبيوتر القيام بالترجمة بنفس جودة مترجم محترف فلابد أن هذا النظام على مستوى ذكاء متكامل كأنه اجتاز Turing Test

وتظهر في الترجمة المشاكل السابقة ويزيد عليها عندما نتعامل مع اللغة العربية، فإذا جربنا خدمة Google Translate التي تعد من أحسن نظم الترجمة الآلية حالياً State-of-the-art نجد جملاً لا تصح نحوياً ولا لغوياً وكثيراً ما يضيع المعنى المجمل للكلام.

هذا مثال من ويكيبيديا المصرية ترجم للإنجليزية ثم إلى العربية ثانية

سلسة جبال الكارپات هى سلسة جبال فى شرق اوروبا بتمتد فى 7 دول اوروبيه بتبتدى فى (براتيسلافا) سلوفاكيا و بتعدى على بولاندا و تشيكيا و اوكرانيا و المجر و صيربيا و بتنتهى عند (اورشوفا) رومانيا عند نهر الدانوب، على شكل هلال طوله 1,500 كيلو متر و بتربط بين جبال الالب فى وسط اوروبا و جبال البالكان فى جنوبها. جبال الكاربات مشهوره بالمنتجعات السياحيه و الرياضات الشتويه و بينبع منها انهار كتير اهمها نهر الدنيستير و نهر الفيستيولا و مصدر مهم للمعادن زى الدهب و الفضه و الرصاص و الحديد و كمان فيها غابات الصنوبر و البلوط و الزان و فيها تنوع كبير للحيوانات من اول الدببه و الديابه و القطط البريه و الغزلان.

The Carpathian Range is a mountain range in Eastern Europe, spanning seven European countries in Bratislava (Slovakia) and encroaching on Poland, Czechoslovakia, Ukraine, Hungary and Siberia, and ending at Oreshova (Romania) at the Danube, in the form of a crescent of 1,500 km Linking the Alps in central Europe and the Balkans in the south. The Carpathian Mountains are famous for tourist resorts, winter sports and many of them are rivers. The most important rivers are the Dniester River and the Vistula River. It is an important source of minerals such as Dahab, silver, lead and iron, as well as pine, oak and beech forests. Wild cats and deer.

سلسلة جبال الكاربات هي سلسلة جبال في أوروبا الشرقية ، تمتد عبر سبعة بلدان أوروبية في براتيسلافا (سلوفاكيا) وتتعدى بولندا وتشيكوسلوفاكيا وأوكرانيا وهنغاريا وسيبيريا وتنتهي في أوريشوفا (رومانيا) في نهر الدانوب ، على شكل هلال من 1500 كيلومتر ربط جبال الألب في وسط أوروبا ومنطقة البلقان في الجنوب. تشتهر جبال كارباثيان بالمنتجعات السياحية والرياضات الشتوية والعديد منها من الأنهار. أهم الأنهار هي نهر دنيستر ونهر فيستولا. وهو مصدر مهم للمعادن مثل دهب والفضة والرصاص والحديد ، وكذلك غابات الصنوبر والبلوط والزان. القطط البرية والغزلان.

بالرغم من أن اللهجة المصرية في هذه الفقرة ليست شديدة البعد عن الفصحى إلا أننا نرى تدهور في الترجمة حتى تنتهي الفقرة نهاية غير مفهومة.

خاتمة

تطلعنا في هذا المقال لتحليل لغوي للغة العربية وما يجعلها أصعب من لغات أخرى مثل الإنجليزية في بناء تطبيقات NLP. رأينا كيف أن قوة وجمال اللغة العربية وما يجعل نصوصها الأدبية أكثر إفصاحاً وبلاغة (للبشر) هي نفس الظواهر التي تزيد صعوبة فهمها من وجهة نظر الكمبيوتر. إضافة إلى تكريس الموارد وأوقات البحث العلمي، تحتاج اللغة العربية إلى مثابرة ومعرفة عميقة بعلوم اللغويات لبناء نظم في مثل كفاءة تلك المتاحة للإنجليزية. ورأينا كيف كان للتنوع الشديد في لهجات العربية أثر كبير في تصعيب الـ NLP فبين بعض اللهجات فروق كبيرة تكاد تجعلهم لغات منفصلة، بينما معظم الأبحاث والداتا المتوافرة مكتوبة بالفصحى مما يجعل هذه التطبيقات قليلة الفائدة في التعامل مع اللغة العربية في مختلف صورها خاصة على الانترنت.

نرجو أن يفتح هذه المقال أفكار وأطرق لمن أراد البحث لتطوير الـ NLP للعربية بمعرفة العقبات والمشاكل، فربما نصل لحلول جديدة تعلي الكفاءة وتفيد المستخدمين للغة العربية.

وبهذا نختم سلسلة “معالجة اللغة العربية”

 

مصادر

http://www.nizarhabash.com/tutorials/EMNLP-2014-Diab+Habash-Tutorial.pdf

https://ar.wikipedia.org/wiki/%D8%B9%D9%84%D9%85_%D8%A7%D9%84%D9%86%D8%AD%D9%88

https://ar.wikipedia.org/wiki/%D8%B9%D9%84%D9%85_%D8%A7%D9%84%D8%AA%D8%B5%D8%B1%D9%8A%D9%81

https://arz.wikipedia.org/wiki/%D9%83%D8%A7%D8%B1%D8%A8%D8%A7%D8%AA

https://scholarworks.iu.edu/dspace/bitstream/handle/2022/9821/Mohamed_indiana_0093A_10807.pdf

 

تعليقات