
لحل مشكلات المستخدم بسرعة دون تدخل بشري ، يتطلب روبوت المحادثة الفعال قدرًا هائلاً من بيانات التدريب. ومع ذلك ، فإن العقبة الرئيسية في تطوير روبوتات الدردشة هي الحصول على بيانات محادثة واقعية وموجهة نحو المهام لتدريب هذه الأنظمة باستخدام تقنيات التعلم الآلي.لقد قمنا بتجميع قائمة بأفضل مجموعات بيانات المحادثة من الدردشات ، مقسمة إلى أسئلة وأجوبة ، بيانات خدمة العملاء. بيانات تفاعلية ومتعددة اللغات.
مجموعة بيانات الأسئلة والأجوبة لتدريب روبوتات المحادثة
ارتباط . تتضمن هذه المجموعة مقالات ويكيبيديا ، وأسئلة واقعية تم إنشاؤها يدويًا ، وإجابات تم إنشاؤها يدويًا على هذه الأسئلة لاستخدامها في البحث العلمي.
مجموعة WikiQA . مجموعة من أزواج الأسئلة والجمل المتاحة للجمهور والتي تم جمعها وتعليقها لاستكشاف إجابات لأسئلة المجال المفتوح لعكس الحاجة الحقيقية للمعلومات من المستخدمين العاديين ، استخدموا سجلات استعلام Bing كمصدر للأسئلة. كل سؤال مرتبط بصفحة ويكيبيديا يحتمل أن يكون لها إجابة.
بيانات لغة Yahoo . تقدم هذه الصفحة مجموعات بيانات مراقبة الجودة المنتقاة بعناية من Yahoo Answers من Yahoo.
TREC (مجموعة REtrieval النصية) مجموعة QA: قامت TREC بالرد على الأسئلة منذ 1999. في كل سلسلة من الأسئلة والأجوبة ، تم تعريف المشكلة بطريقة تلقي الأنظمة أجزاء صغيرة من النص تحتوي على إجابة لأسئلة المجال المفتوح مع إجابات محتملة فقط بـ "نعم" أو "لا".
مجموعة بيانات دعم أوبونتو
تتكون مجموعة محادثات Ubuntu من ما يقرب من مليون محادثة لشخصين تم استخراجهما من سجلات دردشة Ubuntu المستخدمة للحصول على الدعم الفني في مختلف المشكلات المتعلقة بـ Ubuntu. تحتوي المجموعة على 930،000 حوار وأكثر من 100،000،000 كلمة.
مجموعة إستراتيجية علاقة خدمة العملاء : اجمع بيانات خدمة العملاء المتعلقة بالسفر من أربعة مصادر. سجلات المحادثات من ثلاث خدمات عملاء تجارية من IVA ومنتديات شركات الطيران على موقع TripAdvisor.com خلال أغسطس 2016.
دعم عملاء Twitter . تتضمن مجموعة البيانات هذه على Kaggle أكثر من 3،000،000 تغريدة وردود من أكبر العلامات التجارية على Twitter.
مجموعة بيانات حوار تدريب Chatbot
سجلات دردشة IRC لمجموعة الاهتمام بالويب الدلالية . يتوفر سجل دردشة IRC الذي تم إنشاؤه تلقائيًا في RDF والذي تم الاحتفاظ به يوميًا منذ 2004 ، بما في ذلك الطوابع الزمنية والأسماء المستعارة.
كورنيل فيلق حوارات الأفلام . تحتوي هذه المجموعة على مجموعة كبيرة من البيانات الوصفية الغنية بالحوارات الخيالية من نصوص الأفلام: هناك 220579 حوارًا بين 10292 زوجًا من أبطال الأفلام مع 9035 شخصية من 617 فيلمًا.
مجموعة بيانات ConvAI2 . تحتوي مجموعة البيانات هذه على أكثر من 2000 محادثة لمسابقة PersonaChat ، حيث قام الأشخاص العاملون في منصة Yandex.Toloka للتعهيد الجماعي بالدردشة مع الروبوتات من الفرق المشاركة.
سانتا باربارا. تحدث الإنجليزية الأمريكية كوربوس: تتضمن مجموعة البيانات هذه ما يقرب من 249000 كلمة في النسخ والصوت والطوابع الزمنية على مستوى وحدات التنغيم الفردية.
مجموعة محادثة NPS . تتكون هذه المجموعة من 10567 رسالة من حوالي 500000 رسالة تم جمعها في غرف الدردشة المختلفة عبر الإنترنت وفقًا لشروط الخدمة.
حوارات هادفة في مالوبا . مجموعة بيانات من المحادثات تركز فيها المحادثة على إكمال مهمة أو اتخاذ قرار ، مثل البحث عن رحلات الطيران والفنادق. يحتوي على معلومات شاملة تغطي أكثر من 250 فندقًا ورحلة جوية ووجهة.
Wizard of Oz Multidomain Dataset (MultiWOZ)... مجموعة ذات علامات كاملة من المحادثات المكتوبة التي تغطي مجالات وموضوعات متعددة. تحتوي المجموعة على 10000 حوار وعلى الأقل ترتيب من حيث الحجم أكثر من جميع المجموعات التوضيحية السابقة ، والتي تركز على حل المشكلات.
مجموعة بيانات لتدريب الروبوتات متعددة اللغات
مجموعة NUS . تم إنشاء هذه المجموعة لتطبيع النص من الشبكات الاجتماعية وترجمته. تم إنشاؤه عن طريق اختيار 2000 رسالة عشوائيًا من مجموعة الرسائل القصيرة باللغة الإنجليزية NUS ثم ترجمتها إلى اللغة الصينية الرسمية.
مجموعة بيانات EXCITEMENT . تتوفر هذه المجموعات باللغتين الإنجليزية والإيطالية ، وتحتوي على شهادات سلبية للعملاء يشير فيها العملاء إلى أسباب عدم الرضا عن الشركة.
هل ما زلت لا تستطيع العثور على البيانات التي تبحث عنها؟ يوفر Lionbridge AI بيانات مخصصة لتدريب chatbot مع التعلم الآلي بـ 300 لغة لجعل محادثاتك أكثر تفاعلية ودعم العملاء في جميع أنحاء العالم. وإذا كنت ترغب في تحسين نفسك في التعلم الآلي - تعال إلى الدورة التدريبية المتقدمة.بواسطة ML ولا تنسى كود الترويجي HABR الذي يضيف 10٪ للخصم على البانر.

- دورة تعلم الآلة
- دورة متقدمة "التعلم الآلي + التعلم العميق"
- دورة "الرياضيات والتعلم الآلي لعلوم البيانات"
المزيد من الدورات
مقالات مقترحة
- كم يكسب عالم البيانات: نظرة عامة على الرواتب والوظائف في عام 2020
- كم يكسب محلل البيانات: نظرة عامة على الرواتب والوظائف في عام 2020
- كيف تصبح عالم بيانات بدون دورات عبر الإنترنت
- 450 دورة مجانية من Ivy League
- كيف تتعلم التعلم الآلي 5 أيام في الأسبوع لمدة 9 أشهر متتالية
- التعلم الآلي ورؤية الكمبيوتر في صناعة التعدين
- التعلم الآلي والرؤية الحاسوبية في مصانع الإثراء