المشاريع النهائية لدورة التعلم العميق في معالجة اللغة الطبيعية (بواسطة مختبر DeepPavlov)

اختتمت مؤخراً " التعلم العميق في معالجة اللغة الطبيعية " ، وهي دورة تعليمية مفتوحة حول معالجة اللغة الطبيعية. تقليديا ، القيمين على الدورة هم موظفون في مشروع DeepPavlov ، مكتبة مفتوحة للذكاء الاصطناعي المنطوق ، والتي يتم تطويرها في مختبر MIPT للأنظمة العصبية والتعلم العميق. تم إجراء الدورة بدعم المعلومات من مجتمع Open Data Science . إذا كنت بحاجة إلى مزيد من التفاصيل حول تنسيق الدورة ، فانتقل هنا . أحد العناصر الأساسية للتعلم اللغوي في البرمجة اللغوية العصبية هو الفرصة للشعور بأنك باحث وتنفيذ مشروعك الخاص.



نتحدث بشكل دوري على المتوسطحول المشاريع التي ينشئها المشاركون كجزء من برامجنا التعليمية ، على سبيل المثال ، كيفية بناء أوراكل منطوق . اليوم نحن جاهزون لمشاركة نتائج فصل الربيع 2020.







بعض البيانات والتحليلات



لقد حطمنا هذا العام جميع الأرقام القياسية لعدد الدورة: في بداية فبراير ، كان هناك حوالي 800 شخص مسجلين . لنكن صادقين ، لم نكن مستعدين للعديد من المشاركين ، لذلك توصلنا إلى العديد من النقاط أثناء التنقل معهم. لكننا سنكتب عن هذا في المرة القادمة.



دعنا نعود إلى المشاركين. هل أنهى الجميع الدورة؟ الجواب بالطبع واضح. مع كل مهمة جديدة ، أصبح عدد الراغبين أقل فأقل. نتيجة لذلك ، إما بسبب الحجر الصحي ، أو لأسباب أخرى ، ولكن بحلول منتصف الدورة ، بقي النصف فقط. حسنًا ، ثم اضطررت إلى اتخاذ قرار بشأن المشاريع. تم الإعلان عن سبعين عملاً من قبل المشاركين. والمشروع الأكثر شيوعًا - استخراج المشاعر من التغريدات - حاول تسعة عشر فريقًا إكمال المهمة على Kaggle .



المزيد عن المشاريع المقدمة



عقدنا الأسبوع الماضي جلسة نهائية من الدورة حيث قدمت عدة فرق مشاريعها. إذا فاتتك الندوة المفتوحة ، فقد قمنا بإعداد تسجيل . أدناه سنحاول وصف الحالات المنفذة بإيجاز.



Kaggle Jigsaw: تصنيف التعليقات السامة متعدد اللغات



رومان شيشكين (QtRoS) ، دينيس Grushentsev (شر) ، مكسيم تاليمانشوك (متاليمانتشوك)



هذه المسابقة هي استمرار لمسابقة Jigsaw الشهيرة لتحديد النص السام ، ولكن في هذه الحالة يتم التدريب على البيانات الإنجليزية ، والاختبار - على البيانات متعددة اللغات (بما في ذلك الروسية). يعتمد التقييم على مقياس ROC AUC. حصل الفريق على البرونزية (132 من أصل 1621) مع ROC AUC من ~ 0.9463. كان النموذج النهائي عبارة عن مجموعة من المصنفات:



  • XLM روبرتا كبير
  • بايز ساذجة
  • قاعدة بيرت
  • قاعدة بيرت متعددة اللغات
  • استخدام متعدد اللغات


XLMRoberta كبير بطبقة خطية 1024 * 1 تم تدريبه على مجموعة بيانات أساسية باستخدام محسن AdamW. تم استخدام نموذج USE متعدد اللغات في الإصدار الأساسي (تم تدريبه في 16 لغة) دون تدريب إضافي. كان استخدام قاعدة Bert ممكنًا بسبب الترجمة الآلية لمجموعة بيانات الاختبار إلى اللغة الإنجليزية. تم توسيع مجموعة التدريب بمجموعات بيانات إضافية.



عرض المشروع متاح هنا .

يتوفر موقع GitHub الخاص بالمشروع على هذا الرابط .



على التقطير



نيكيتا بالاغانسكي



كما تعلم ، لا تزال النماذج القائمة على بنية BERT ، مع تحقيق تقييمات جودة رائعة ، متخلفة كثيرًا في الأداء. هذا لأن BERT نموذج به عدد كبير من الأوزان. هناك عدة طرق لتقليل النموذج ، أحدها هو التقطير. الفكرة وراء التقطير هي إنشاء نموذج "طالب" أصغر يحاكي سلوك نموذج "المعلم" الأكبر. تم تدريب نموذج الطالب الروسي على أربع بطاقات 1080ti لمدة 100 ساعة ، على مجموعة بيانات إخبارية. نتيجة لذلك ، تبين أن نموذج الطالب أصغر 1.7 مرة من النموذج الأصلي.... تم إجراء مقارنة بين جودة نماذج الطالب والمعلم على مجموعة بيانات لتحديد التلوين العاطفي لنص Mokoron. نتيجة لذلك ، كان أداء نموذج الطالب مشابهًا لنموذج المعلم. تمت كتابة النص التدريبي باستخدام حزمة المحفز . يمكنك قراءة المزيد عن المشروع على موقع Medium .



عرض المشروع متاح هنا .

يتوفر موقع GitHub الخاص بالمشروع على هذا الرابط .





الصورة: rasa.com



افتح إجابة أسئلة علوم البيانات



إيليا سيروتكين ، يوري زيلينسكي ، إيكاترينا كاربوفا



بدأ كل شيء مع وظيفة في ODS من إيكاترينا كاربوفا. كانت الفكرة طموحة للغاية - لإنشاء مجيب آلي للأسئلة في مجتمع سلاك ODS بناءً على مجموعة بيانات الأسئلة والأجوبة التي تم جمعها. ومع ذلك ، كشف التحليل الأولي أن معظم الأسئلة فريدة تمامًا ، وأن إنشاء مجموعة اختبار مصنفة لتقييم الجودة يعد مهمة شاقة إلى حد ما. لذلك ، تقرر أولاً إنشاء مصنف لتحديد ما إذا كان السؤال المطروح ينتمي إلى قناة الركود ODS. سيساعد الوافدين الجدد في نظام الوثائق الرسمية على طرح الأسئلة في موضوع القناة ذي الصلة. تم اختيار مقياس pwROC-AUC كتقييم للجودة.



في إطار المشروع ، تم إجراء تحليل مقارن لنماذج تصنيف النص الشائعة. أفضلها - النموذج القائم على RuBERT من DeepPavlov - أظهر جودة 0.995 pwROC-AUC. تشير هذه الأرقام العالية من جودة النموذج إلى درجة عالية من الفصل (وقابلية الفصل) للبيانات الأصلية. القناة الوحيدة التي تمثل مشكلة بالنسبة لجميع النماذج التي اختبرتها هي _call_4_colaboration. ولكن لماذا هو بالضبط ، لم يكن من الممكن معرفة ذلك بعد.



بعد التعامل مع هذه المهمة ، لا يترك الفريق أي أمل في العودة إلى المهمة الأصلية المتمثلة في الإجابة على أسئلة مستخدمي نظام الوثائق الرسمية.



عرض المشروع متاح هنا .

يتوفر موقع GitHub الخاص بالمشروع على هذا الرابط .



تحليل المشاعر الروسي القائم على الجانب



Dmitry Bunin



في إطار هذا المشروع ، تم حل مشكلة تحديد المشاعر المتعلقة بكائن معين في النص (المشكلة C من مسابقة Dialogue Evaluation 2015). تم استخدام كل من البيانات الروسية والإنجليزية كمجموعات بيانات. في الأساس ، تمت مقارنة النماذج الحديثة القائمة على معماريات ELM (من حزمة RusVectores) و BERT (من حزمة DeepPavlov ). أظهر نموذج ELM + CNN باللغة الروسية جودة مماثلة مع أفضل طراز من المنافسة ، على الرغم من عينة التدريب الصغيرة وعدم توازن البيانات القوي.



عرض المشروع متاح هنا .

يتوفر موقع GitHub الخاص بالمشروع على هذا الرابط .







Kaggle: سقسقة استخراج المشاعر



Kirill Gerasimov



وفقًا لشروط المسابقة ، كانت المهمة هي استخراج كلمة أو عبارة رئيسية من نص التغريدة تحدد الحالة المزاجية لهذه التغريدة. تم استخدام نقاط Jaccard على مستوى الكلمات كمقياس للجودة. في هذه المسابقة ، واجه جميع المشاركين بيانات صاخبة وعلامات غامضة. استخدم الفريق نموذج كمبيوتر محمول عام يعتمد على قاعدة RoBERTa كنموذج أساسي. يستخدم هذا النموذج نهج فهم القراءة ، حيث يتم تمييز بداية ونهاية العبارة الرئيسية (بشرط إلزامي أن تكون النهاية بعد البداية). وفقًا للتقاليد المقبولة ، كان أداء مجموعة النماذج المختلفة أسرع من النماذج الفردية. نتيجة لذلك ، برونزية (المركز 135 من أصل 2100)... في تجربة الفائز في المسابقة ، توفر التعليقات التوضيحية ذات المستويين سرعات أفضل.



عرض المشروع متاح هنا .

يتوفر موقع GitHub الخاص بالمشروع على هذا الرابط .



الحل التلقائي للامتحان



Mikhail Teterin and Leonid Morozov



الهدف من هذا المشروع هو تحسين مقاييس الجودة في ثلاث مهام من مسابقة AI Journey 2019 (الحل التلقائي للاختبار) ، وهي:



  • البحث عن المعلومات الرئيسية في النص ؛
  • تحديد معنى كلمة في سياق معين ؛
  • وضع علامات الترقيم في الجمل.


بالنسبة لجميع المشكلات الثلاثة ، تمكنا من تجاوز أفضل حل في المنافسة. يرجع الكثير من التحسينات إلى استخدام بيانات تدريب إضافية. في الحلول ، أظهرت النماذج القائمة على RuBERT من DeepPavlov أفضل جودة .



عرض المشروع متاح هنا .

يتوفر موقع GitHub الخاص بالمشروع على هذا الرابط .







حاولنا في هذا المقال أن نتحدث عن بعض المشاريع التي تم تقديمها في الندوة ، لكن بالطبع كان هناك المزيد منها.



شكرا لكل من شارك بنشاط في الدورة ولم يستسلم. حسنًا ، بالنسبة لأولئك الذين يتعلمون فقط ويبحثون عن مشاكل مثيرة للاهتمام في مجال البرمجة اللغوية العصبية ، نوصي بالنظر في مشروع DeepPavlov Contribute .مستقبل الذكاء الاصطناعي التحاوري بين يديك!



All Articles