🏇🏽 💪🏿 🎋 كيف أعدنا صوت الشاب ليونيد كورافليف من خلال أربع دقائق من الكلام 🖐🏼 🙅🏻 ♉️

مرحبا! اسمي أوليغ بيتروف ، أنا رئيس مجموعة البحث والتطوير في مركز تقنية الكلام. لقد عملنا لفترة طويلة ليس فقط على التعرف على الكلام ، ولكن أيضًا على معرفة كيفية تركيب الأصوات. أبسط مثال على سبب احتياج الشركة إلى هذا: بحيث أنه لكل سيناريو جديد يتم فيه تعليم الروبوتات الصوتية ، ليست هناك حاجة لتنظيم تسجيل جديد مع الشخص الذي أعرب عنه ذات مرة. نقوم أيضًا بتطوير المنتجات بناءً على القياسات الحيوية للصوت والوجه والتحليلات الصوتية. بشكل عام ، نحن نعمل على مهام جادة ومعقدة لمختلف الشركات.

لكن زملاء من سبيربنك جاءوا إلينا مؤخرًا بمقترح للمشاركة في قصة مسلية - للتعبير عن بطل ليونيد كورافليف في فيديو جديد. بالنسبة له ، تم إعادة إنشاء وجه كورافليف من إطارات من فيلم "إيفان فاسيليفيتش يغير مهنته" وتم تركيبه على وجه ممثل آخر باستخدام تقنية Deepfake. حتى لا نتمكن من الرؤية فحسب ، بل أيضًا سماع جورج ميلوسلافسكي في عام 2020 ، قررنا مساعدة زملائنا. في الواقع ، يتغير صوتنا جميعًا على مر السنين ، وحتى لو عبّر ليونيد فياتشيسلافوفيتش عن البطل ، فلن يكون التأثير هو نفسه.

سوف أخبرك تحت المقطع لماذا هذا ، بالفعل من نواح كثيرة ، مهمة مألوفة لتركيب الصوت ، تبين أنها أصعب قليلاً مما توقعنا ، وسأشرح لماذا لا تستطيع هذه الأصوات خداع أنظمة تفويض المقاييس الحيوية عالية الجودة.

صدر فيلم "إيفان فاسيليفيتش يغير مهنته" في عام 1973. في هذا العقد ، تمكن ليونيد كورافليف من التمثيل في بضع عشرات من الأفلام الطويلة. ومع ذلك ، فإن هذا لم يبسط مهمتنا بأي شكل من الأشكال:

قد تحتوي الشخصيات على عدد قليل من المونولوجات الطويلة ؛
في الأفلام الروائية ، يتم تركيب المؤثرات الصوتية والموسيقى الخلفية وما إلى ذلك على الكلام ؛
يحتوي صوت الأفلام القديمة من السبعينيات على عيوب ، حتى لو تم ترقيمها.
يقوم الممثل دائمًا بضبط طريقة الكلام على الشخصية ، ويلعب بمشاعر مختلفة ، لكن كان من الضروري تكرار طريقة خطاب شخصية جورج ميلوسلافسكي.

وعلى الرغم من ارتفاع مستوى عدم اليقين ، فقد تولينا هذه المهمة ، وهذه هي الطريقة التي تعاملنا بها مع حلها.

جمع البيانات لتدريب تحويل النص إلى كلام

TTS (تحويل النص إلى كلام) هي تقنية لترجمة النص المطبوع إلى كلام منطوق. حاليًا ، يتم تنفيذه ، كقاعدة عامة ، على مجموعة من طرق التعلم العميق ، مما يجعل من الممكن تحقيق جودة صوت عالية للصوت المركب مقارنة بالنهج الأخرى. على سبيل المثال ، باستخدام قدرات الكمبيوتر الفائق كريستوفاري ، يمكن تدريب النموذج على ذلك في غضون ساعتين فقط.

كان المصدر الرئيسي لمادة الكلام عبارة عن مقاطع صوتية من أفلام بمشاركة ليونيد كورافليف - "أقارب عميقون" ، "لا يمكن أن يكون" ، "إيفان فاسيليفيتش يغير مهنته" ، "فانيتي أوف فانيتيز". ليست كل حلقات ظهور بطل الفيلم مناسبة لغرض تدريس نظام تحويل النص إلى كلام. من الضروري تقليل وجود موسيقى الخلفية والضوضاء ، وخطاب الممثلين الآخرين ، ومختلف المظاهر غير الكلامية. بعد بحث مضني عن الأجزاء المناسبة ، كان لدينا 7 دقائق على الأقل من الكلام ، معبرة تمامًا ومتنوعة اعتمادًا على شخصية الشخصية التي يلعبها ليونيد. بالإضافة إلى ذلك ، كان لكل فيلم صورته الصوتية الخاصة ، والتي تؤثر أيضًا بشكل كبير على الإدراك وتعقد المهمة.

بعد إعداد نسخ النص للمواد المقطوعة وفقًا لخط الأنابيب المعتاد لدينا ، تم إنشاء النسخ الصوتي للنص ومواءمته مع المسار الصوتي. يعد تمديد سلسلة من الصوتيات فوق الصوت ضروريًا لتحديد أماكن الإيقاف المؤقت الفعلي عندما ينطق المتحدث النص. قمنا بتنفيذ كل هذه الإجراءات بمساعدة معالج لغوي من تصميمنا ونموذج صوتي ، تم تزويدنا به من قبل قسم التعرف على الكلام.

لا يعد الموضع الدقيق للفونيمات في السجل مهمًا جدًا بالنسبة لنموذج المركب إذا كان يحتوي على ما يسمى وحدة الانتباه. تتيح لك آلية الانتباه تدريب النموذج على التمييز بشكل مستقل بين الصوتيات ، ومع ذلك ، فإن ترميز الإيقاف المؤقت أكثر أهمية - أولاً ، يمكن أن تختلف فترات التوقف بشكل كبير في الطول ، ومعرفة الطول الدقيق يسمح لك بالحفاظ على الاستقرار أثناء التعلم ، وثانيًا ، التوقفات المؤقتة غالبًا ما تكون مؤشرات لحدود التركيب اللغوي - وحدات الكلام الهيكلية المستقلة - والتي من خلالها يمكن في كثير من الأحيان رسم حدود البيانات المستقلة. يتيح لك ذلك تقسيم العبارات الطويلة جدًا إلى عبارات أقصر لاستخدام أكثر كفاءة لذاكرة وحدة معالجة الرسومات أثناء التدريب ، بالإضافة إلى زيادة مجموعة البيانات بشكل طفيف عن طريق تعداد جميع خيارات التقسيم الممكنة.

تنقية البيانات

على الرغم من أننا حاولنا استخراج أنقى تسجيلات ممكنة من الأفلام ، إلا أن بعضها لا يزال مصحوبًا بأصوات غريبة (ضوضاء المدينة ، أصوات الطبيعة ، صوت الماء ، إلخ) أو الموسيقى.

لإصلاح ذلك ، استخدمنا مشروعين مفتوحين المصدر: نموذج لتحسين جودة الكلام ، والذي يعمل مباشرة على إشارة صوتية خام ، وخوارزميةلتقسيم المقطوعة الموسيقية إلى أجزاء: صوت ، طبول ، جهير وبقية الأجزاء. كنا بحاجة إلى الحصول على تسجيلات واضحة لصوت السماعة بأقصى جودة صوت (لنظام تحويل النص إلى كلام لدينا - 22050 هرتز). من المؤكد أن أي قطع أثرية سوف تتسرب إلى النموذج العصبي لصوت المتحدث ، خاصة عندما يتعلق الأمر بمثل هذه العينة التدريبية الصغيرة. بفضل المشاريع المدرجة ، كان من الممكن فصل الموسيقى تمامًا عن الصوت دون خسارة كبيرة في الجودة لنحو نصف الأمثلة المجمعة.

نتيجة لذلك ، بعد كل التلاعبات ، لا يزال لدينا 4 دقائق و 12 ثانية من الكلام النقي بصوت ليونيد فياتشيسلافوفيتش كورافليف. أصبح من الواضح أن لدينا هندسة قتالية TTS ، والتي ، بالمناسبة ، يمكنك الاستماع إلى السحابة) غير مناسب لهذه الحالة. ومع ذلك ، كان في متناول اليد نموذج TTS جديد غير عادي نسبيًا من NVidia يسمى Flowtron ، استنادًا إلى طريقة الانحدار التلقائي العكسي (IAF).

الميزة الرئيسية لنموذج Flowtron هي أنه يمكن استخدامه لتجميع طرق مختلفة لنطق نفس النص ، مع مجموعة متنوعة من التنغمات وأنماط الكلام. لكن هذه الخاصية هي "سيف ذو حدين" ، لأن الأمثلة التي يولدها النموذج بعيدة كل البعد عن أن تكون كافية دائمًا من حيث الإدراك. يمكن أن يتغير التنغيم بشكل مفاجئ وغير طبيعي ، ويمكن أن يختلف تردد طبقة الصوت (درجة الصوت) على نطاق واسع ، مما ينتج عنه صوت مضحك ولكنه غير ضروري. كلما زادت البيانات الأولية للتدريب ، كلما كان توليد الكلام أكثر طبيعية واستقرارًا. ولكن حتى مع وجود كمية صغيرة من المواد ، فمن الممكن أحيانًا تجميع أمثلة جيدة. قررنا الحصول عليهم.

بادئ ذي بدء ، كان لا بد من تدريب النموذج الموجود ، المدرب على مجموعة بيانات معبرة كبيرة ، على التحدث بصوت جديد. إذا كنت تأخذ كل 4 دقائق و 12 ثانية من البيانات و "تغذيتها" ، إذن ، اعتمادًا على المعلمة التي تنظم حساسية التدريب ، سيعيد النموذج التدريب على الفور (يتحدث بشكل سيئ للغاية) ، أو يتعلم بشكل سيء للغاية (أيضًا لن يتحدث بصوت جديد) ... ويمكنك "التقاط" القيمة المثلى للمعلمة لفترة طويلة وبحماس. من الممارسات الجيدة خلط البيانات الجديدة مع البيانات القديمة بنسب مناسبة (على سبيل المثال ، واحد من كل عشرة). بعد ذلك ، قبل بدء عملية إعادة التدريب ، سيكون أمام البيانات الجديدة وقت "للاستيعاب" جيدًا. لقد فعلوا ذلك ، لكنهم قاموا أولاً بقطع أمثلة التوقف المؤقت مع التداخل ، والذي ، بحركة بسيطة للأصابع على لوحة المفاتيح ، يحول 4 دقائق من الكلام إلى 23.

كان النموذج الذي تم تدريبه بهذه الطريقة قادرًا بالفعل على توليف شيء ما بصوت الفنان ، ولكن تم الحصول على أمثلة كافية إلى حد ما أو أقل في حالة واحدة من أصل عشرين. من المهم أيضًا الحصول على الأسلوب الضروري ، والتجويد ، والعاطفة ، وجودة الصوت ، والتي يصعب للغاية في هذه الحالة التحكم فيها. وبالتالي ، كان من الضروري تجميع عدة عشرات الآلاف من الأمثلة لاختيار عدة أمثلة مناسبة يدويًا منها.

هنا يأتي تطبيع التدفقات لمساعدتنا ، والتي تم بناء النموذج نفسه عليها. في الواقع ، يتعلم Flowtron عرض الميزات الصوتية لإشارة الكلام ، بالنظر إلى النص ، إلى نقاط من التوزيع الطبيعي لنفس البعد ، وهذا العرض قابل للعكس. أثناء التركيب ، تحدث العملية العكسية (لذلك ، تكون التدفقات عكسية وتطبيعية). وبالتالي ، يمكنك أخذ سجل وعرضه باستخدام النموذج في نقاط محددة ، واستعادة نفس السجل من هذه النقاط. بدون فائدة؟ ليس صحيحا! يمكنك مزج هذه النقاط بعناية مع نفس الشيء من تسجيل آخر وبالتالي نقل نمط آخر تسجيل جزئيًا. يمكنك إضافة القليل من الضوضاء إليهم والحصول على تسجيل أصلي تقريبًا ، يختلف قليلاً عن الأصلي. ولكن إذا أضفت الكثير من الضوضاء ، فسوف تحصل على هراء. وبالتالي ، يمكنك مضاعفة مجموعة البيانات الأصلية والحصول على العديد من المجموعات المماثلة ،ولكن ليس بالضبط نفس الأمثلة!

ومع ذلك ، في هذه الحالة ، لا يمكن للمرء الاعتماد بشكل كامل على حشمة النموذج. يمكنها تجميع الكثير من الأشياء. كان علي أن أستمع إلى عدة آلاف من هذه الأمثلة لمجموعة بيانات مكررة وأختار بمهارة أمثلة عالية الجودة. يمكن أن يسمى هذا النهج "نموذج مع آذان". لقد سمح لنا بالحصول على ساعة كاملة من بيانات التدريب من أول 23 دقيقة (مع الأخذ في الاعتبار التقسيم بالتوقف المؤقت).

وقد أتى برنامج التدريب متعدد المراحل هذا ثماره. على الرغم من أن معظم الأمثلة التي تم تجميعها بمساعدتها بدت جديرة بالفعل ، إلا أنها لا تزال تتطلب "القوة الغاشمة". لقد أضفنا نقاطًا من أمثلة من إيفان فاسيليفيتش إلى نقاط البداية. في مكان ما ، ظهر تأثير فيلم قديم أو غرفة كبيرة. أو خرجت العبارة بصوت فنان ، لكن ليس بطريقة "ميلوسلافية". كان علي أن أختار "فقط" من بين ألفي عينة. لقد ظهر حوالي ثلاثمائة مثال من العبارات القصيرة المطلوبة مع مجموعة متنوعة من الأساليب والتنغيم ، والتي في الواقع ، اخترنا عينات من الفيديو الترويجي لـ Sber.

وهكذا ، بعد أن عقدنا نوعًا من الهاكاثون الأسبوعي في فريق تركيب الكلام RTC ، تمكنا من إعادة إنشاء الصوت الذي كان سائداً منذ 50 عاماً في 4 دقائق فقط من الكلام. تفتح التكنولوجيا التي اختبرناها فرصًا لإعادة تكوين الأصوات المفقودة منذ فترة طويلة لشخصيات مشهورة من كمية صغيرة للغاية من المواد. يمكنك أن ترى ما خرج من كل هذا في النهاية.

بعد قراءة كل هذا ، ربما اعتقدت أن مثل هذه القدرات التكنولوجية تلقي بظلال من الشك على موثوقية أنظمة المقاييس الحيوية ، لأن صوت أي شخص عام أو مدون فيديو أو مستخدم عادي لوسائل التواصل الاجتماعي ينشر مقاطع فيديو للهواة يمكن تزويره بسهولة. على الرغم من حقيقة أنه لا يمكن تمييز الصوت المركب ليونيد كرافليف عن الصوت الحقيقي ، إلا أنه لا يزال توليفة. هذا يعني أنه يحتوي على خصائص الصوت التي تشير إلى أن الصوت ليس حياً. غالبًا ما يتم إجراء مكافحة الانتحال والحماية من المتسللين في مسابقات علمية خاصة ، بما في ذلك المسابقات العالمية ، حيث فاز فريقنا... في الأهداف الإنمائية للألفية ، نعتقد أن المطورين يجب أن يكونوا دائمًا متقدمين بخطوة ، وألا يبتكروا تقنيات ومنتجات جديدة مبنية عليها فحسب ، بل يبحثون باستمرار عن وسائل حماية جديدة ، وليس التوقف عما تم تحقيقه.

كيف أعدنا صوت الشاب ليونيد كورافليف من خلال أربع دقائق من الكلام

جمع البيانات لتدريب تحويل النص إلى كلام

تنقية البيانات

More articles: