نظرة معمقة حول معالجة اللغة العربية الطبيعية في الذكاء الاصطناعي

نظرة معمقة حول معالجة اللغة العربية الطبيعية في الذكاء الاصطناعي

نظرة معمقة حول معالجة اللغة العربية الطبيعية في الذكاء الاصطناعي

تعدّ اللغة إحدى تجلّيات الإدراك البشري الأساسية، وهي بناء تطوُّري معقد للتواصل بين البشر، ومن هنا انطوت عملية جعل الكمبيوتر “يفهم ويستجيب” لهذه البُنى الإنسانية الفريدة على تحديات لا تُحصى. كما أن التنوع الشديد في اللغات يجعل “قابلية” تطبيق تقنيات معالجة الأبعاد الخاصة بالصوتيات، والنحو والصرف، والجوانب الثقافية في اللغة الانجليزية على لغة أخرى محدود للغاية. علاوة على ذلك، فإن معالجة اللغات الطبيعية بواسطة أجهزة الكمبيوتر تُعتبر مطلبًا وحاجةً مُلحّةً في الوقت الراهن وذلك لعدة لغات في جميع أنحاء العالم.

اللغة العربية واحدة من اللغات الرسمية الست لمنظمة الأمم المتحدة ويتكلمها ما يزيد عن 420 مليون شخص. وتنطوي اللغة العربية على ثلاثة أنواع: اللغة العربية الفصحى، واللغة العربية الفصحى الحديثة، واللهجة العربية.

يتعلّم الكثير من الناس في جميع أنحاء العالم اللغة العربية الفصحى لأسباب شخصية أو مهنية، ولا سيما لفهم الكتب الدينية والأدب العربي. شهدت اللغة العربية الفصحى العديد من التغييرات مع مرور الوقت، على سبيل المثال، النقاط التي أُضيفت للتمييز بين الحروف والتشكيلات المشابهة (التشكيل والحركات) لتبديد الغموض لدى القرّاء. تُستخدم اللغة العربية الفصحى الحديثة في الصحف، والكُتب، والوثائق الرسمية. وبخلاف هاتين الاثنتين، تُستخدم لهجات مختلفة، في بعض الأحيان داخل نفس البلد، مثل اللهجة الخليجية، واللهجة الفلسطينية، واللهجة المصرية، واللهجة المغربية، ويتم التحدث بها واستخدامها في وسائل التواصل الاجتماعي.

تُستخدم علامات التشكيل في اللغة العربية الفصحى على نحو كبير، وهي منتشرة جدًا في الشعر، ومجال القانون، والكتب التعليمية، حيث أنها تحدد النطق الصحيح للكلمات. غير أن التحدي الرئيسي في اللغة العربية الفصحى الحديثة يتمثل في إغفال علامات التشكيل لأغراض الإيجاز. وهكذا، فإنه يمكن أن يكون لكلمة واحدة في  اللغة العربية الفصحى الحديثة عدة معان وفقًا لعلامات التشكيل المختلفة التي يمكن أن تفترضها تلك الكلمة، فعلى سبيل المثال يمكن لكلمة “كتب” ان تعني “كُتُب” (إسم)، أو “كتب” (صيغة الماضي)، أو “كتب” (تمت كتابته – مبني للمجهول).

تخيّل كل حرف من حروف اللغة العربية يحتمل ثمانية علامات تشكيل ممكنة تمثّل هي بدورها ثمانية طرق لنطق الحرف ذاته، هنا سينكشف مدى تعقيد المسألة! ومن ثمّ، فإن بناء أنظمة التشكيل للغة العربية أمر لا غنًى عنه للعديد من تطبيقات معالجة اللغة العربية الطبيعية، مثل تطبيقات تحويل النص إلى كلام. كما توجد حالة مقنعة لاستخدام أنظمة التشكيل وهي مساعدة المتحدثين غير الناطقين باللغة العربية والمبتدئين على قراءة النصوص العربية ونطقها بشكل صحيح. ومع ذلك، فإن مفتاح كل هذه المسائل يكمن في المعالجة المستندة إلى السياق.

شهد مجال معالجة اللغة الطبيعية ظهور بعض التقنيات المتقدمة لتمثيل المعنى الدلالي للنصوص، خاصةً مع ظهور جيل جديد من أساليب التعلّم العميق، بما في ذلك تقنيات “ورد تو فيك” (word2vec)  و”إنفيرسانت” (InferSent)و”يوز” (USE) و”إيلمو ELMO) ). كما بُذلت بعض المحاولات لتدريب مُتصفحي الكلمات على تحقيق أداء أفضل للمهام اللغوية العربية. غير أن التمثيل “على مستوى الجملة” لا يزال مجالًا غير مُستغل بشكل كبير، بالرغم من وجود إمكانيات للاستفادة من هذا التمثيل فيما يتعلق بالوحدات النمطية الأخرى لمجال معالجة اللغة الطبيعية، مثل وحدة الكيان المُسمّى، ووحدة تصنيف أجزاء الكلام، ووحدة التحليل النحوي، ووحدة استبانة الدقة.

تحظى تطبيقات معالجة اللغات الطبيعية بإمكانات سوق ضخمة في دول مجلس التعاون الخليجي، ويمكن لبرامج الدردشة “تشات بوت” العربية أن تُتيح التفاعل بين المستخدمين والمؤسسات في قطاعات الرعاية الصحية، والخدمات العامة، والخدمات التعليمية. كما يمكن للترجمة الآلية للغة العربية أن تُسهّل التواصل بين الناطقين وغير الناطقين بها على نحو كبير. ونحن في “سال” نستخدم أحدث تقنيات معالجة اللغات الطبيعية ونُطور خوارزميات علم السياق. لماذا لا تتفاعل معنا وتكتشف المزيد؟