أعلنت الثلاثاء 22 جوان 2021 الشركتين الناشئتين في مجال الذكاء الإصطناعي iCompass و InstaDeep انهما قامتا بإنشاء أول نموذج لغة ذكاء إصطناعي للهجة التونسية فالعالم تحت إسم "tunBERT".ليكون بذلك نموذج مفتوح المصدر تشجيعاً من الشركتين على الإبتكار في مجال الذكاء الإصطناعي وتحفيزاً خلق مجال تكنولوجي تونسي متنامي.
تم إنشاء نموذج tunBERT بالإعتماد على أحداث التطورات في مجال الذكاء الإصطناعي والتعلم الألي من خلال تدريبه على تقييم العديد من المهام كتحليل المشاعر وتصنيف اللهجات والاسئلة والاجوبة للفهم الكتابي.
وقد قررت الشركتين جعل tunBERT نموذج مجاني ليتسنى للاخرين خلق نماذج مماثلة وتمهيداً لمناخ يكون فيه البحث والتطوير عبر قطاعات متعددة إضافةً إلى تسريع الإبتكار في مجال الذكاء الإصطناعي ليكون tunBERT أساساً يمكن البناء عليه من قبل من يريدون التجديد والإبتكار .
يمكن لtunBERT أن يقوم ب-:
- تحليل المشاعر :
لتحليل المشاعر، قارن الفريقين أداء TunBERT مع العديد من النماذج، بما في ذلك Word2Vec، Doc2Vec والنماذج القائمة على بيرت مثل "متعددة اللغات بيرت"، GigaBERT وAraBERT. تظهر النتائج أن TunBERT تفوق على هذه النماذج بشكل كبير على مقاييس مثل الدقة ودرجة الماكرو F1.
- التعرف على اللهجة:
للعمل على تحديد اللهجة، أنشأ الفريق مجموعتي بيانات جديدتين (TAD) و (TADI)، وقارن أداء TunBERT مقارنة ب برت متعدد اللغات، "جيجابرت" و"أرابرت" على مجموعات البيانات هذه. تظهر النتائج أن TunBERT تفوق بشكل كبير على أداء هذه النماذج استنادا إلى الدقة ودرجة الماكرو F1. وهذا يبين بوضوح الأثر الإيجابي لنموذج لغوي قائم على اللهجة على هذه المهمة المحددة. وبالإضافة إلى ذلك، ثبت أن الخوض في تدريب مسبق باستخدام "بيانات صاخبة" بدلا من "بيانات موحدة" مفيد في هذه الحالة المحددة.
-الإجابة على الأسئلة :
أما بالنسبة لمهمة الإجابة على الأسئلة، فقد أنشأ الفريق مجموعة بيانات تسمى TRCD (لمجموعة بيانات فهم القراءة التونسية)، وقارن أداء TunBERT مقارنة ببرت متعدد اللغات، "جيجابرت" و"أرابرت"، بعد إضافة التدريب المسبق على مجموعة بيانات عربية حديثة قياسية (MSA) لجميع النماذج المذكورة سابقا.
Address: Diaspora Invest – Immeuble Louati Lot 6.5.9
Les Jardins du Lac – Tunis – Tunisie
Tél: +216 70 016 020
E-Mail: services@allobledi.tn