👨🏿‍🎓 🙎🏼 🥧 تدقيق Chatbot 🧞 🤚🏾 🤶

تنتشر روبوتات الدردشة الآن في مجالات عمل مختلفة. على سبيل المثال ، يمكن للبنوك استخدامها لتحسين عمل مركز الاتصال الخاص بهم ، والإجابة على الفور على أسئلة العملاء الشائعة وتزويدهم بالمعلومات المرجعية. بالنسبة للعملاء ، تعد روبوتات الدردشة أيضًا أداة ملائمة: من الأسهل بكثير كتابة سؤال في الدردشة بدلاً من انتظار الإجابة عن طريق الاتصال بمركز الاتصال.

في مناطق أخرى ، أثبتت روبوتات المحادثة أنها جيدة أيضًا: في الطب ، يمكنهم مقابلة المريض ونقل الأعراض إلى أخصائي وتحديد موعد مع الطبيب لتحديد التشخيص. في شركات الخدمات اللوجستية ، ستساعدك روبوتات الدردشة على الاتفاق على تاريخ التسليم وتغيير العنوان واختيار نقطة التقاط مناسبة. في المتاجر الكبيرة عبر الإنترنت ، تولت روبوتات الدردشة جزئيًا صيانة الطلبات ، وفي مجال خدمات مشاركة السيارات ، تؤدي روبوتات الدردشة ما يصل إلى 90٪ من مهام المشغل. ومع ذلك ، فإن روبوتات الدردشة ليست قادرة بعد على حل المطالبات المتعلقة بالعمل. لا تزال التعليقات السلبية والمواقف المثيرة للجدل تقع على عاتق المشغلين والمتخصصين.

وبالتالي ، فإن معظم الشركات النامية تستخدم بالفعل روبوتات المحادثة بشكل نشط للعمل مع العملاء. ومع ذلك ، غالبًا ما تختلف فوائد تطبيق روبوت المحادثة: في بعض الشركات يصل مستوى الأتمتة إلى 90٪ ، وفي الشركات الأخرى يكون 30-40٪ فقط. على ماذا تعتمد؟ ما مدى جودة هذا المقياس للأعمال؟ هل هناك طرق لزيادة مستوى أتمتة روبوتات الدردشة؟ ستتناول هذه المقالة الأسئلة التي ستساعدك على فهم ذلك.

المرجعية

اليوم ، تتمتع كل منطقة عمل تقريبًا ببيئتها التنافسية الخاصة. تتخذ العديد من الشركات أساليب تجارية مماثلة. لذلك ، إذا استخدمت الشركات المنافسة روبوتات الدردشة في أنشطتها ، فمن المستحسن مقارنتها. قياس الأداء هو أداة مقارنة جيدة.

في حالتنا ، ستشمل قياس أداء chatbot بحثًا سريًا لمقارنة وظائف روبوتات الدردشة الخاصة بالمنافسين بوظائف روبوت الدردشة الخاص بك. لنفكر في حالة باستخدام روبوت محادثة بنكي كمثال.

لنفترض أن أحد البنوك قد طور روبوت محادثة لتحسين تشغيل مركز الاتصال وتقليل تكلفة صيانته. لإجراء المقارنة المعيارية ، من الضروري تحليل البنوك الأخرى وتحديد أكثر روبوتات المحادثة الوظيفية لمنافسيها.

من الضروري تكوين قائمة أسئلة للتحقق (50 سؤالاً على الأقل مقسمة إلى عدة مواضيع):

أسئلة حول الخدمات المصرفية ، على سبيل المثال: "ما هي معدلات الودائع الخاصة بك؟" ، "كيف تعيد إصدار بطاقة؟" إلخ
معلومات مرجعية ، على سبيل المثال: "ما هو سعر الصرف الحالي؟" ، "كيف تحصل على إجازة ائتمانية؟" إلخ
مستوى فهم العميل. (مقاومة الروبوت للأخطاء المطبعية والأخطاء وإدراك الكلام العامي) ، على سبيل المثال: "أنا أفرقع البطاقة ، ماذا أفعل؟" ، "اشحن الهاتف المحمول" ، إلخ.
محادثة حول مواضيع مجردة ، على سبيل المثال: "أخبر مزحة" ، "ماذا تفعل أثناء العزلة الذاتية؟" إلخ

ملاحظة: تم تقديم موضوعات الأسئلة هذه كمثال ويمكن توسيعها أو تغييرها.

هذه هي الأسئلة التي يجب أن تطرحها على الشات بوت الخاص بك وكذلك روبوتات الدردشة الخاصة بمنافسيك. بعد كتابة السؤال ، هناك 3 خيارات للنتيجة ممكنة (حسب النتيجة ، يتم وضع النتيجة المقابلة):

لم يتعرف الروبوت على سؤال العميل (0 نقطة) ؛
تعرف الروبوت على سؤال العميل ، ولكن فقط بعد توضيح الأسئلة (0.5 نقطة) ؛
تعرف الروبوت على السؤال في المحاولة الأولى (نقطة واحدة).

إذا قام روبوت المحادثة بنقل العميل إلى المشغل ، فسيتم اعتبار السؤال أيضًا غير معروف (0 نقطة).

بعد ذلك ، يتم تلخيص عدد النقاط التي سجلها كل روبوت محادثة ، وبعد ذلك يتم حساب حصة الأسئلة التي تم التعرف عليها بشكل صحيح حول كل موضوع (منخفض - أقل من 40٪ ، متوسط - من 40 إلى 80٪ ، مرتفع - أكثر من 80٪) ، ويتم تجميع التقييم النهائي. يمكن تقديم النتائج في شكل جدول:

لنفترض ، وفقًا لنتائج القياس ، أن برنامج الدردشة الآلي للبنك احتل المرتبة الثانية. ما هي الاستنتاجات التي يمكن استخلاصها؟ والنتيجة ليست الأفضل ، ولكنها ليست الأسوأ أيضًا. استنادًا إلى الجدول ، يمكننا أن نقول إن جوانبها ليست أقوى: أولاً ، تحتاج الخوارزميات إلى التحسين للتعرف على أسئلة العميل بشكل صحيح (لا يفهم روبوت المحادثة دائمًا أسئلة العميل التي تحتوي على أخطاء وأخطاء مطبعية) ، كما أنه لا يدعم دائمًا الحوار حول الموضوعات المجردة. ... يمكن رؤية اختلاف أكثر تفصيلاً عند المقارنة مع روبوت المحادثة ذي المرتبة الأولى.

كان أداء chatbot ، الذي احتل المركز الثالث ، أسوأ: أولاً ، يتطلب مراجعة جادة لقاعدة المعرفة حول الخدمات المصرفية والمعلومات المرجعية ، وثانيًا ، تدريبه السيئ على الحوار مع العميل حول مواضيع مجردة. من الواضح أن مستوى التشغيل الآلي لمثل هذا الشات بوت منخفض مقارنة بالمنافسين الذين احتلوا المركزين الأول والثاني.

وبالتالي ، بناءً على نتائج القياس ، تم تحديد نقاط القوة والضعف في عمل روبوتات الدردشة ، بالإضافة إلى إجراء مقارنة بين روبوتات الدردشة المتنافسة مع بعضها البعض. الخطوة التالية هي تحديد مناطق المشاكل هذه. كيف احقق هذا؟ دعونا نفكر في بعض الأساليب القائمة على تحليل البيانات: AutoML ، عملية التعدين ، نهج DE.

AutoML

في الوقت الحالي ، تغلغل الذكاء الاصطناعي بالفعل ولا يزال يخترق العديد من مجالات الأعمال ، مما يستلزم حتماً زيادة الطلب على الكفاءات في مجال DataScience. ومع ذلك ، فإن الطلب على هؤلاء المتخصصين ينمو بشكل أسرع من مستوى مهاراتهم. الحقيقة هي أن تطوير نماذج التعلم الآلي يتطلب الكثير من الموارد ولا يتطلب قدرًا كبيرًا من المعرفة من متخصص فحسب ، بل يتطلب أيضًا قدرًا كبيرًا من الوقت الذي يقضيه في بناء النماذج ومقارنتها. لتقليل الضغط الناجم عن الندرة ، فضلاً عن تقليل الوقت اللازم لتطوير النماذج ، بدأت العديد من الشركات في إنشاء خوارزميات يمكنها أتمتة عمل علماء البيانات. تسمى هذه الخوارزميات AutoML.

يساعد AutoML ، المعروف أيضًا باسم التعلم الآلي الآلي ، عالم البيانات في أتمتة المهام المتكررة والمستهلكة للوقت لتطوير نماذج التعلم الآلي مع الحفاظ على جودتها. بينما يمكن أن توفر لك نماذج AutoML الوقت ، فإنها لن تكون فعالة إلا عندما تكون المشكلة التي تحلها مستمرة ومتكررة. في ظل هذه الظروف ، تعمل نماذج AutoML بشكل جيد وتظهر نتائج مقبولة.

لنستخدم الآن AutoML لحل مشكلتنا: تحديد مجالات المشاكل في عمل روبوتات الدردشة. كما ذكرنا سابقًا ، فإن chatbot هو روبوت ، أو برنامج متخصص. إنها تعرف كيفية استخراج الكلمات الأساسية من الرسالة والبحث عن إجابة مناسبة في قاعدة بياناتها. البحث عن الإجابة الصحيحة شيء ، والآخر هو الحفاظ على حوار منطقي ، وتقليد التواصل مع شخص حقيقي. تعتمد هذه العملية على مدى جودة برمجة روبوت المحادثة.

تخيل موقفًا عندما يكون لدى العميل سؤال ، ويجيبه روبوت الدردشة بشكل غريب ، وليس منطقيًا ، أو بشكل عام حول موضوع آخر. ونتيجة لذلك ، فإن العميل غير راضٍ عن هذه الإجابة ، وفي أحسن الأحوال يكتب عن سوء فهمه للإجابة ، وفي أسوأ الأحوال - الرسائل السلبية تجاه برنامج الدردشة الآلي. لذلك ، ستكون مهمة AutoML تحديد الحوارات السلبية من العدد الإجمالي (بناءً على سجلات chatbot غير المحملة من قاعدة البيانات) ، وبعد ذلك من الضروري تحديد السيناريوهات التي تتعلق بها هذه الحوارات. ستكون النتيجة التي تم الحصول عليها هي الأساس لتنقيح هذه السيناريوهات.

أولاً ، لنقم بترميز حوارات العميل باستخدام chatbot. في كل حوار ، نترك رسائل فقط من العملاء. إذا كانت رسالة العميل تظهر بشكل سلبي في اتجاه روبوت المحادثة ، أو لا تفهم إجاباته ، فقم بتعيين العلم = 1 ، وفي حالات أخرى = 0:

تمييز الرسائل من العملاء

بعد ذلك ، نعلن عن نموذج AutoML ، ونقوم بتدريبه على البيانات التي تم تمييزها وحفظها (يتم أيضًا تمرير جميع معلمات النموذج الضرورية ، ولكنها غير معروضة في المثال أدناه).

automl = saa.AutoML
res_df, feat_imp = automl.train('test.csv', 'test_preds.csv', 'classification', cache_dir = 'tmp_dir', use_ids = False)
automl.save('prec')

نقوم بتحميل النموذج الناتج ، وبعد ذلك نقوم بالتنبؤ بالمتغير المستهدف لملف الاختبار:

automl = saa.AutoML
automl.load('text_model.pkl')
preds_df, score, res_df = automl.predict('test.csv', 'test_preds.csv', cache_dir = 'tmp_dir')
preds_df.to_csv('preds.csv', sep=',', index=False)

بعد ذلك ، نقوم بتقييم النموذج الناتج:

test_df = pd.read_csv('test.csv')
threshold = 0.5
am_test = preds_df['prediction'].copy()
am_test.loc[am_test>=threshold] = 1
am_test.loc[am_test<threshold] = 0
clear_output()
print_result(test_df[target_col], am_test.apply(int))

مصفوفة الأخطاء الناتجة:

في عملية إنشاء النموذج ، حاولنا تقليل الخطأ من النوع الأول (تعيين حوار جيد لخطأ سيئ) ، لذلك ، بالنسبة للمصنف الذي تم الحصول عليه ، توقفنا عند مقياس f1 يساوي 0.66. بمساعدة النموذج المدرب ، كان من الممكن تحديد 65 ألف جلسة "سيئة" ، والتي بدورها سمحت لنا بتحديد 7 سيناريوهات غير فعالة بما فيه الكفاية.

عملية التعدين

لتحديد السيناريوهات الإشكالية ، يمكننا أيضًا استخدام الأدوات القائمة على عملية التعدين - الاسم العام لعدد من الأساليب والنهج المصممة لتحليل وتحسين العمليات في أنظمة المعلومات أو العمليات التجارية بناءً على دراسة سجلات الأحداث.

باستخدام هذه الطريقة ، تمكنا من تحديد 7 سيناريوهات تشارك في حوارات طويلة وغير فعالة:

18٪ من الحوارات بها أكثر من 4 رسائل من chatbot ،

كل عنصر في الرسم البياني أعلاه هو سيناريو. كما ترون من الشكل ، يتم تكرار البرامج النصية ، وتشير أسهم التكرار العريضة إلى حوار طويل نوعًا ما بين العميل وروبوت الدردشة.

بعد ذلك ، للعثور على السيناريوهات السيئة ، قمنا بإعداد مجموعة بيانات منفصلة وقمنا ببناء رسم بياني بناءً عليها. لهذا ، تم ترك مربعات الحوار تلك التي لا يوجد فيها وصول إلى المشغل ، وبعد ذلك قاموا بتصفية الحوارات التي تحتوي على أسئلة لم يتم حلها. نتيجة لذلك ، حددنا 5 سيناريوهات للتحسين ، حيث لا يحل الشات بوت سؤال العميل.

السيناريوهات المحددة تظهر في حوالي 15٪ من جميع الحوارات

نهج DE (هندسة البيانات)

كما تم استخدام نهج تحليلي بسيط للبحث عن سيناريوهات المشكلة: تم تحديد الحوارات ، وتقييم التعليقات التي تراوحت (من جانب العملاء) من 1 إلى 7 نقاط ، ثم تم اختيار السيناريوهات الأكثر شيوعًا في هذه العينة.

وبالتالي ، باستخدام الأساليب القائمة على AutoML و Process Mining و DE بطريقة شاملة ، حددنا مناطق المشاكل في chatbot للشركة التي تتطلب تحسينًا.

الآن الشات بوت يتحسن!

تدقيق Chatbot

المرجعية

AutoML

عملية التعدين

نهج DE (هندسة البيانات)

More articles: