تقع كلّ من معالجة اللغات الطبيعية، وتعلّم الآلة، والتعلّم العميق تحت المظلة الواسعة للذكاء الاصطناعي. يتمثل التحدي الكبير في ما يتعلق بمجال معالجة اللغات الطبيعية، في تحويل بيانات نصيّة صاخبة وغير منظمة إلى صِيغ منظمة يُمكن فهمها بواسطة خوارزميات تعلّم الآلة.
تتمثل برمجة الخاصية اللغويّة داخل نطاق تقنيات تعلّم الآلة في عملية توليد أو استنباط خصائص من البيانات الخام أو البيانات الجاهزة، وتُعدُّ هذه العملية الأكثر أهميةً لخوارزميات تعلم الآلة. تقوم العملية على مبادىء دمج الاحصائيات والرياضيات وبرمجيات الاستفادة المُثلى، لكننا نُناقش هنا استراتيجيات برمجة خاصية من وجهة نظر لغويّة. لا يمكن للكمبيوتر أن يفسر كميةً كبيرةً من البيانات في شكل لغة طبيعية، حيث لا تمتلك الخوارزميات القدرة على قبول بينات اللغة الطبيعية الخام وتوليد وإخراج الناتج لتطبيق خاص بتعلم الآلة. وبالتالي، يتمّ اشتقاق الخصائص باستخدام الجوانب اللغوية للّغة الطبيعية والتي تلعب دورًا مهماً عند تطوير تطبيقات معالجة اللغة الطبيعية باستخدام تعلم الآلة.
تُعدّ الخاصيات اللغوية بمثابة مُمثلة البيانات الجاهزة التي يمكن فهمها بواسطة خوارزميات تعلم الآلة. وهي خاصية أو ملكية مشتركة للوحدات التي يجب أن يتم التحليل والتنبؤ وفقها. تؤثر جودة الخاصيات وعددها بشكل كبير على جودة النموذج.
اختيار الخاصية:
من الضروري إنشاء العديد من الخاصيات وتحديد مجموعة منها ذات الصلة لاستخدامها في إنشاء النماذج وتبسيطها بما يُمكّن من اختصار وقت التدريب، وتجنب الأبعاد والمُتغيرات العشوائية وتقليص عملية الإفراط في الإحكام.
تتضمن معالجة اللغات الطبيعية:
تصنيف أجزاء الكلام (POS): تتمثل العملية في تصنيف الكلمات أو وضع علامات عليها داخل البيانات المُعدة الجاهزة وفقًا للجزء الخاص بها في الكلام (فعل، فاعل، إسم، مفعول به إلخ..). كما أن تصنيف أجزاء الكلام (POS)والتي يُطلق عليها أيضًا وضع التصنيف النحوي للكلمات أو عملية إزالة الغموض حول تصنيف الكلمات، تعتمد أيضًا على الكلمات المُجاورة لها. تُساعد تتابعات عملية تصنيف أجزاء الكلام على فهم تراكيب الجملة المختلفة، وهي مفيدة للغاية في تصميم روبوتات دردشة الذكاء الاصطناعي مع خوارزميات تعلم الآلة أو القيام بتحليل المشاعر.
الإعراب: يعدّ الإعراب أو تحليل بنية الجملة عملية تحليل مجموعة من الرموز سواءً في لغة طبيعية أو لغة كمبيوتر أو هياكل البيانات بما يتفق مع قواعد النحو . تساعد هذه العملية في توليد خاصيات مثل خاصية العبارات الإسمية، وتصنيف أجزاء الكلام داخل العبارات الإسمية، والكلمة الرئيسية وعلاقات التبعية بين الكلامات.
التعرف على الكيانات المُسماة (NER): تتمثل هذه العملية في تحديد الكيانات المُسماة داخل النص وتصنيفها تحت فئات مُحددة مُسبقًا، بما في ذلك أسماء الأشخاص، والمؤسسات، والمواقع، وتعبيرات الوقت، والقيم النقدية إلخ.. تساعد تصنيفات الكيانات المُسماة أنظمة معالجة اللغات الطبيعية على فهم دور عبارة إسمية معينة داخل جملة خاصةً أثناء بناء نظام الإجابة عن الأسئلة حيث أنه من الضروري للغاية استخراج الكيانات من الجملة بناءً على تركيبها النحوي وخطابها.
قاموس “وورد نيت” WordNet: قاموس “وورد نيت” هو قاموس المعاني للغة الانجليزية وقد صُمّم كمصدر لتجهيز البيانات يُغطي الأصناف المُعجمية الدلالية مثل، الترادف والتضاد. يُستخدم قاموس “وورد نيت” في العديد من التطبيقات القائمة على المعرفة كوسيلة للتوصل إلى فهم العلاقات بين الكلامات.
وبالتالي، فإن الجانب اللغوي بصفته جزء من برمجة الخاصيات يساعد على تفسير البيانات بشكل أفضل من مُقاربة الصندوق الأسود التي تتبناها بعض خوارزميات معالجة اللغات الطبيعية.