ورشة عمل بحثية. المساعدين الافتراضيين الذين يتم تنشيطهم بالصوت - ما هو الخطأ معهم؟

المقدمة



يعد المحللون الذين يبحثون عن روبوتات الدردشة وخدمات المساعد الافتراضي بنمو السوق بنسبة 30٪ على الأقل سنويًا. بالقيمة المطلقة ، اعتبارًا من عام 2019 ، بلغت قيمة السوق أكثر من 2 مليار دولار سنويًا. أصدرت جميع شركات تكنولوجيا المعلومات الرائدة في العالم تقريبًا مساعدين صوتيين افتراضيين ، وقد قامت Apple و Google و Amazon بالفعل بالجزء الأكبر من ترويجها.



صورة



للسوق الروسي أيضًا رواده في هذا المجال. أصبحت Yandex أول لاعب رئيسي يطلق مساعد الصوت الخاص بها في روسيا. ووفقًا لبيانات الشركة المنشورة رسميًا ، فإن 45 مليون مستخدم شهريًا يستخدمون Alice ، ويبلغ عدد الطلبات الشهرية للمساعد أكثر من مليار ، ووفقًا للخبراء ، يمكن أن يكون عام 2020 نقطة تحول لسوق المساعدين الصوتيين - حيث ستؤدي المنافسة بين المنصات والعلامات التجارية إلى زيادة الاعتراف بالمساعدين ...



بشكل عام ، ليس هناك شك في أن سوق المساعد الصوتي هو مكان مثير للاهتمام. والفكرة الأولى التي تتبادر إلى الذهن هي أخذ أي من خدمات ASR (التعرف التلقائي على الكلام) و TTS (تحويل النص إلى كلام) ، وربطها بمُنشئ الروبوت الذي يدعم NLU (فهم اللغة الطبيعية) ، وهذا كل شيء! علاوة على ذلك ، يمكن تنفيذ كل هذا بسهولة وبسرعة في المنصات السحابية مثل Twilio و VoxImplant.



المشكلة الوحيدة هي أن النتيجة ستكون متواضعة للغاية. ما هو سبب ذلك؟ بادئ ذي بدء ، دعنا نحاول أن نفهم لماذا تعطي مجموعة من التقنيات الجيدة ، مجتمعة معًا ، مثل هذه النتيجة المتواضعة. هذا مهم لأن في الحياة الواقعية ، سيعطي العميل دائمًا الأفضلية للخدمة التي تكون خدمتها الصوتية أكثر ملاءمة وإثارة للاهتمام وأكثر ذكاءً وأسرع من غيرها.



كيف يعمل المساعد الصوتي النموذجي



بادئ ذي بدء ، نلاحظ أن حديثنا عبارة عن سلسلة من الأصوات. الصوت ، بدوره ، هو تراكب الاهتزازات الصوتية (الموجات) للترددات المختلفة. تتميز الموجة ، كما نعلم من الفيزياء ، بخاصيتين - السعة والتردد. خوارزمية عمل مساعد



صورة

إشارة الكلام



:



  1. , , – . , «», .. .



    , , , - . ( ), «» . , , — , — . , , . , , , , .



    , , , , . , ASR .



    , – . , .



    , .
  2. يتم إرسال نتيجة عمل المساعد الصوتي ، التي تم الحصول عليها في المرحلة الأولى ، إلى الروبوت ، مع دعم NLU لتحديد النوايا والكيانات وملء الفتحات وتشكيل نص الرد.



    نتيجة لذلك ، عند الإخراج نحصل على عرض تقديمي تجريبي لعبارة الاستجابة ، وهي رد فعل مساعد الصوت لدينا على الطلب المستلم.
  3. يتم إرسال إجابة المساعد الصوتي إلى خدمة تركيب الكلام ، والتي يتم التعبير عنها لاحقًا للشخص.


المشاكل الناشئة



على الرغم من الصحة الواضحة للنهج المنفذ ، في حالة المساعد الصوتي ، فإنه ينطوي على الكثير من المشاكل. فيما يلي أهمها:



  1. التأخير
  2. التأخير




  3. . , , 500 , .



    , 1 . - « » : «!» « ?». , , , , -, .



    , :



    • . – « »: , , .
    • .
    • .
    • .


    !

  4. . , .. . . , , , .. .
  5. . , . , , – .
  6. – . . , .



    :



    — ?

    — . , ? ?



    – « » : « » « ». « » , « » « ».
  7. -. .



    :



    — ---… ---…

    — , , … --…

    — , , --… , …



    , .. , , . .. , .
  8. , TTS-.


?



أولاً ، عند تنفيذ المساعد الصوتي ، من الضروري التأكد من "الاستماع إلى" المحاور ، بما في ذلك. في تلك اللحظات التي ينطق فيها المساعد الافتراضي بنفسه الرسالة الصادرة. يعد الاختيار بين الاستماع أو الاستجابة تنفيذًا سيئًا للغاية ويجب تجنبه في الحياة الواقعية.



ثانيًا ، يجب تحسين سرعة جميع مكونات النظام. ومع ذلك ، في وقت ما ، سنواجه بالتأكيد حدود التقليل المحتمل لفترات الاستجابة وتعقيد سيناريوهات معالجة اللغة الطبيعية. لذلك ، نفهم أنه من الضروري تغيير نهج تنفيذ الخدمة الصوتية بشكل أساسي.



الفكرة الرئيسية وراء النهج الجديد هي أخذ مثال من العملية التي ينفذها الدماغ البشري. هل لاحظت أن شخصًا ما ، أثناء محادثة ما ، يبدأ في تحليل الرسالة التي يقولها المحاور ، ليس في الوقت الذي تم الانتهاء فيه تمامًا ، ولكن على الفور تقريبًا ، في بداية نطقها ، مع توضيح كل كلمة جديدة؟ لهذا السبب ، غالبًا ما نكون مستعدين لتقديم إجابة حتى قبل أن ينتهي المحاور من رسالته.



إذا عدنا إلى الخوارزمية التي يجب أن يطبقها المساعد الافتراضي الصوتي ، فقد تبدو هكذا (للتوضيح ، ضع في اعتبارك السؤال الوارد: "أين أقرب جهاز صراف آلي؟"):



  1. ASR , . .



    :



    a) «»

    b) «»

    c) «»

    d) «»
  2. , ,



    :



    a) «»

    b) « »

    c) « »

    d) « »
  3. , NLU, .



    :



    a) : «». :

    b) : « ». : « » 50%, « » 50%

    c) : « ». : « » 50%, « » 50%, « » = « »

    d) : « ». : « » 100%, « » = « »



    صورة



  4. , 1 , , , , :



    • ;
    • ;
    • , .. 3.


    , , ( – = 0%).



    , . , , , , , .
  5. بمجرد أن يتم الكشف عن أن المستخدم قد أنهى رسالته (يتم تحديدها من خلال التأخير في تدفق الإدخال) ، نقوم بتفريغ الاستجابة المقابلة للنية المكتشفة الأكثر احتمالية في المخزن المؤقت للإخراج. الأفضل من ذلك ، لتحسين السرعة ، احتفظ في المخزن المؤقت ليس بالتمثيل النصي للاستجابة ، ولكن على الفور جزء الصوت المتلقى من TTS ، وبالتالي تجميع النسخة الكاملة من رسالة الاستجابة الصوتية.
  6. نعلن عن محتويات المخزن المؤقت للإخراج للمستخدم.


طرق تحسين جودة عمل المساعد



دعونا نلقي نظرة على الطرق المتاحة لتحسين جودة مساعد الصوت الافتراضي لدينا:







  1. . , . , (/ , ..) .
  2. «»



    «» , , . , «» .



    , «» , , .




  3. , , . .. , , , . , , , . , ..




  4. , -. .



    , , « ». – , . , , .




  5. , . , .. .




  6. , , . , , , . , .



    . online.


-



حتى الآن ، نظرنا فقط في الميزات التقنية لتنفيذ المساعدين الصوتيين الافتراضيين. لكن يجب أن نفهم أن النجاح لا يعتمد دائمًا فقط على الكمال في التنفيذ الفني. دعنا نحلل المثال المدروس بالفعل: "أين أقرب جهاز صراف آلي؟" وفهم ما هي خصوصية تنفيذه في واجهة الصوت.



كما تعلم ، هناك قاعدة تنطبق على مديري المبيعات - "ما لا يمكن بيعه عبر الهاتف لا ينبغي بيعه عبر الهاتف". لهذا السبب بالذات ، فإن إجابة النموذج "أقرب جهاز صراف آلي يقع في ..." ليست مفيدة لأي شخص. إذا كان يعرف جيدا المكان الذي هو فيه الآن ، أي. إذا كان يعرف أسماء جميع الشوارع المجاورة وأرقام المنازل ، فمن المرجح أنه كان سيعرف مكان أقرب جهاز صراف آلي. لذا فإن مثل هذه الإجابة ستؤدي على الأرجح فورًا إلى تشكيل سؤال آخر: "أين إذن العنوان الذي تم تسميته للتو؟" قد تكون الإجابة الأكثر إفادة هي الخيار: "أقرب جهاز صراف آلي يقع على بعد حوالي مائة متر منك في الاتجاه إلى الجنوب الشرقي" ، أو أفضل من ذلك ، أرسل أيضًا رسالة إلى شخص مثل الموقع على خرائط Yandex أو Google.



القاعدة العامة هنا هي أنه إذا كان من الضروري نقل المعلومات إلى قناة إدراك أخرى لمزيد من استخدام المعلومات ، فإن هذا الخيار يعد خيارًا مؤسفًا للتنفيذ المباشر في إطار واجهة الصوت. مطلوب إعادة صياغة الإجابة في شكل مناسب للاستماع.



بالنسبة لعدد من الخدمات ، يعد تنفيذها في إطار المساعد الصوتي هو الحل الأكثر نجاحًا بشكل عام. على سبيل المثال ، إذا كان الشخص في موقف عصيب ، فعادةً ما يكون من الصعب عليه التركيز ووصف المشكلة بسرعة في النص في الدردشة ، وسيفضل دائمًا التعبير عن كل شيء بالصوت. يمكن أن يصبح هذا معيارًا مهمًا عند اختيار حالات العمل للتنفيذ داخل مساعد صوت افتراضي.



الخيار الثاني الواضح لحالات التنفيذ "بالصوت" هو الحاجة إلى استخدامها في المواقف التي تكون فيها إما قيودًا قانونية على هذا الأمر (على سبيل المثال ، أثناء قيادة السيارة ، يُحظر إجراء مراسلات نصية) ، أو يكون من غير الملائم استخدام قنوات اتصال أخرى (على سبيل المثال ، أثناء العمل أو ممارسة الرياضة عندما تكون يد الشخص مشغولة ببساطة).



لا توجد حدود للكمال



الصوت أكثر ملاءمة من أي واجهة أخرى عندما يحتاج المستخدم إلى وظيفة محددة للغاية لحل مهمة محددة للغاية. لماذا هذا؟ الأمر بسيط للغاية - في مثل هذه الحالة ، الحاجة إلى انتظار تحميل الموقع ، والتمرير عبر الصفحة ، والبحث في قائمة التطبيق ، والضغط على الأزرار ، إلخ. دائمًا أكثر إزعاجًا من الأوامر الصوتية المنطوقة بسرعة. مواقع الويب والتطبيقات متعددة الوظائف. وهذه هي مصلحتهم وعيوبهم في نفس الوقت. يجب أن تكون مهارة الصوت مصممة للوظيفة "هنا والآن".



من المهم أن تتذكر أنه يجب عليك تجنب المواقف التي تحتاج فيها الأوامر الصوتية إلى أن تكون مصحوبة بأي إجراءات إضافية في واجهات أخرى. وإلا فإنه يجعل القناة الصوتية معطلة. تم انتهاك مبدأ عدم استخدام العيون ، لأنه من الضروري القراءة ، وبدون استخدام اليدين ، إذا كنت لا تزال بحاجة إلى تثبيت شيء ما.



توصية مهمة أخرى هي أنه لا يجب أن تحاول تعليم شخص ما التحدث. يمكنه أن يفعل ذلك بشكل جيد بدوننا ، لأنه اللغة هي بالفعل واجهة مألوفة ومفهومة. مثال توضيحي للأسلوب السيئ: "للاستماع إلى هذه الرسالة مرة أخرى ، قل: اسمع مرة أخرى." أنت وأنا لا نتحدث هكذا في الحياة العادية. أليس ذلك؟ من الأفضل أن تسأل فقط ، "استمع إلى الرسالة مرة أخرى أو انتقل إلى الرسالة التالية؟"



من الممارسات الجيدة تنفيذ مساعد افتراضي يتم تنشيطه صوتيًا لتجنب الأسئلة المفتوحة تمامًا. يُنصح بتوجيه المحاور إلى إجراءات محددة. إنه ذو قيمة خاصة حيث يعمل المساعد كملاح أو نظام توصية. يجب ألا يطلب المساعد الصوتي الكثير من المعلومات من شخص ما. تحقق من ذلك مع تقدم المحادثة.



وأخيرًا ، أود أن أشير إلى أن التخصيص ربما يكون الشيء الرئيسي الذي ينقص واجهات حوار الصوت الحالية. بدون هذا ، من المستحيل إجراء حوار مطول إلى حد ما. يجب على المساعد جمع بيانات حول المحاور ، وهيكله والتحقق من المعلومات الواردة. من المهم ألا تفقد خيط الحوار ، للحفاظ على سياق المحادثة ومراعاته. انه مهم. بخلاف ذلك ، لن يتمكن المساعد من تنفيذ سوى استعلامات قصيرة وبسيطة إلى حد ما ، ونتيجة لذلك ، لن يسمح لك هذا بالدخول في حوار حيوي حقًا عندما يتواصل المساعد الصوتي مع المستخدم.



All Articles