المقدمة
هناك العديد من المسابقات في التعلم الآلي ، وكذلك المنصات التي تقام عليها ، ولكل ذوق. ولكن ليس في كثير من الأحيان موضوع المسابقة هو اللغة البشرية ومعالجتها ، وحتى في كثير من الأحيان ترتبط مثل هذه المنافسة باللغة الروسية. شاركت مؤخرًا في مسابقة الترجمة الآلية من الصينية إلى الروسية على منصة ML Boot Camp الخاصة بـ Mail.ru. عدم وجود خبرة كبيرة في البرمجة التنافسية ، وقضاء جميع عطلات مايو في المنزل ، بفضل الحجر الصحي ، تمكنت من احتلال المركز الأول. سأحاول التحدث عن هذا ، وكذلك عن اللغات واستبدال مهمة بمهمة أخرى في المقالة.
الفصل 1. لا تتكلم الصينية أبدا
اقترح مؤلفو هذه المسابقة إنشاء نظام ترجمة آلية للأغراض العامة ، لأن الترجمة حتى من الشركات الكبيرة في زوج صيني روسي متخلفة بشكل كبير عن الأزواج الأكثر شعبية. ولكن منذ أن تم التحقق من صحة الأخبار والخيال ، أصبح من الواضح أنه من الضروري التعلم من مجموعة الأخبار والكتب. كان مقياس تقييم التحويلات هو المعيار BLEU . يقارن هذا المقياس الترجمة البشرية بالترجمة الآلية ، وبشكل تقريبي ، بناءً على عدد التطابقات الموجودة ، يقدر تشابه النصوص على مقياس من 100 نقطة. اللغة الروسية غنية في مورفولوجيتها ، وبالتالي فإن هذا المقياس يكون دائمًا أقل بشكل ملحوظ عند الترجمة إليه مقارنة باللغات ذات الطرق الأقل لتكوين الكلمات (على سبيل المثال ، اللغات الرومانسية - الفرنسية والإيطالية وما إلى ذلك).
يعرف أي شخص يقوم بالتعلم الآلي أن الأمر يتعلق أساسًا بالبيانات وتنظيفها. دعونا نبدأ في البحث عن corpora وبالتوازي سوف نفهم براري الترجمة الآلية. لذا ، في عباءة بيضاء ...
الفصل 2. بون تي بي لات
في عباءة بيضاء ذات بطانة دموية ، مشية خيالة متقطعة ، صعدنا إلى محرك البحث خلف فيلق روسي صيني موازٍ. كما سوف نفهم لاحقًا ، فإن ما وجدناه ليس كافيًا ، ولكن في الوقت الحالي دعونا نلقي نظرة على اكتشافاتنا الأولى (جمعت مجموعات البيانات التي وجدتها وقمت بتنظيفها ووضعها في المجال العام [1] ):
OPUS عبارة عن مجموعة كبيرة ومتنوعة لغويًا ، فلنلقِ نظرة على أمثلة منها:
"ما
عشته أنا وهي أكثر غرابة مما شهدته ..."我 与 她 的 经历 比 你 的 经历 离奇 多 了
I
你 讲讲 经历 ...
" البلدة الصغيرة التي ولدت فيها ... "
我 出生 那座 小镇 ...
كما يوحي الاسم ، هذه في الغالب ترجمات للأفلام والمسلسلات التلفزيونية. تنتمي ترجمات TED إلى نفس النوع ، والتي ، بعد التحليل والتنظيف ، تتحول أيضًا إلى مجموعة موازية تمامًا:
هكذا تحولت تجربتنا التاريخية في العقاب:WikiMatrix عبارة عن نصوص متوافقة مع LASER من صفحات الإنترنت (ما يسمى بالزحف الشائع ) بلغات مختلفة ، ولكن لمهمتنا هناك القليل منها ، وهي تبدو غريبة:
这 就是 关于 我们 印象 中 的 惩戒 措施 的 不为人知 的 一面 يخشى
الشباب أنه في أي لحظة يمكن توقيفهم وتفتيشهم واحتجازهم.
年轻人 年轻人 担心 随时 会 被 截停、 搜身 逮捕
ليس فقط في الشارع ، ولكن أيضًا في منازلهم ،
无论 是 在 街上 还是 在家
زبرانكي (الأوكرانيبعد المرحلة الأولى من استرجاع البيانات ، يظهر سؤال مع نموذجنا. ما هي الأدوات وكيف تتعامل مع المهمة على الإطلاق؟
但 被 其 否认。
لكن من الأفضل لك أن تصوم ، إذا كنت تعرف فقط!
斋戒 对于 你们 更好 , 如果 你们 知道。
لقد رفض مثل هذا البيان.
后来 这个 推论 被 否认。
هناك دورة في البرمجة اللغوية العصبية أعجبتني كثيرًا من MIPT على Stepic [2] ، وهي مفيدة بشكل خاص عند الاتصال بالإنترنت ، حيث تُفهم أنظمة الترجمة الآلية أيضًا في الندوات ، وتكتبها بنفسك. أتذكر الفرحة لأن الشبكة ، المكتوبة من الصفر ، بعد الدراسة في كولاب ، أنتجت ترجمة روسية مناسبة استجابة للنص الألماني. لقد بنينا نماذجنا على بنية المحولات بآلية الانتباه ، والتي أصبحت في وقت ما فكرة اختراق [3] .
بطبيعة الحال ، كانت الفكرة الأولى هي "مجرد إعطاء النموذج بيانات إدخال مختلفة" والفوز بالفعل. ولكن ، كما يعلم أي تلميذ صيني ، لا توجد مسافات في النص الصيني ، ويقبل نموذجنا مجموعات الرموز كمدخلات ، وهي عبارة عن كلمات فيه. يمكن للمكتبات مثل jieba تقسيم النص الصيني إلى كلمات ببعض الدقة. بتضمين كلمة رمزية في النموذج وتشغيلها على الكيانات التي تم العثور عليها ، حصلت على BLEU بحوالي 0.5 (والمقياس 100 نقطة).
الفصل الثالث. الترجمة الآلية وفضحها
تم اقتراح خط أساس رسمي (حل مثال بسيط ولكنه عملي) للمنافسة ، والذي كان يعتمد على OpenMNT . إنها أداة تعليمية للترجمة مفتوحة المصدر مع العديد من المعلمات الفائقة للالتواء. في هذه الخطوة ، دعنا ندرب ونستنتج النموذج من خلاله. سوف نتدرب على منصة kaggle ، حيث إنها توفر 40 ساعة من تدريب GPU مجانًا [4] .
تجدر الإشارة إلى أنه بحلول هذا الوقت كان هناك عدد قليل جدًا من المشاركين في المسابقة لدرجة أنه بعد دخولها ، يمكن للمرء أن يدخل فورًا في المراكز الخمسة الأولى ، وكانت هناك أسباب لذلك. كان تنسيق الحل عبارة عن حاوية عامل إرساء ، تم تركيب المجلدات عليها أثناء عملية الاستدلال وكان على النموذج أن يقرأ من أحدها ويضع الإجابة في أخرى. نظرًا لأن خط الأساس الرسمي لم يبدأ (أنا شخصياً لم أقم بتجميعه على الفور) وكان بدون أوزان ، فقد قررت تجميعه ووضعه في المجال العام [5]. بعد ذلك ، بدأ المشاركون في التقدم بطلب لتجميع الحل بشكل صحيح والمساعدة بشكل عام في عامل الرصيف. الأخلاق ، الحاويات هي المعيار في تطوير اليوم ، استخدمها ، ونسق وتبسيط حياتك (لا يتفق الجميع مع العبارة الأخيرة).
دعنا الآن نضيف زوجين آخرين إلى الجثث الموجودة في الخطوة السابقة:
- المجموعة الموازية للأمم المتحدة (3 ملايين + صفوف)
- UM-Corpus: مجموعة كبيرة متوازية من الإنجليزية والصينية (News subcorpora) (450 ألف سطر)
الأول هو مجموعة ضخمة من الوثائق القانونية من اجتماعات الأمم المتحدة. وهو متاح بالمناسبة بجميع اللغات الرسمية لهذه المنظمة ويتماشى مع المقترحات. والثاني أكثر إثارة للاهتمام ، حيث إنه عبارة عن مجموعة أخبار مباشرة ذات خصوصية واحدة - إنها الصينية-الإنجليزية. هذه الحقيقة لا تزعجنا ، لأن الترجمة الآلية الحديثة من الإنجليزية إلى الروسية عالية الجودة ، ويتم استخدام Amazon Translate و Google Translate و Bing و Yandex. من أجل الاكتمال ، سوف نعرض أمثلة مما حدث.
وثائق الأمم المتحدة
.
它是一个低成本平台运转寿命较长且能在今后进一步发展。
.
报告特别详细描述了由参加者自己拟订的若干与该地区有关并涉及整个地区的项目计划。
UM-Corpus
أغلق Facebook الصفقة لشراء Little Eye Labs في أوائل يناير.
1 月初 脸 书 完成 了 对 Little Eye Labs 的 收购 , أطلق
أربعة مهندسين في بنغالور Little Eye Labs منذ حوالي عام ونصف
一年 半 以前 四位 工程师 在 班加罗尔 创办 تصنع
الشركة أدوات برمجية لتطبيقات الأجهزة المحمولة ، والتعامل سيكلف ما بين 10 دولارات و 15 مليون دولار.
该 公司 开发 移动 应用 软件 工具 , 这次 交易 价值 1000 到 1500 美元 ,
لذا ، مكوناتنا الجديدة: OpenNMT + مرفقات عالية الجودة + BPE (يمكنك أن تقرأ عن رموز BPE هنا ). نقوم بالتدريب والتجميع في حاوية ، وبعد التصحيح / التنظيف والحيل القياسية ، نحصل على BLEU 6.0 (المقياس لا يزال 100 نقطة).
الفصل 4. لا تحترق المخطوطات الموازية
حتى هذه اللحظة ، قمنا بتحسين نموذجنا خطوة بخطوة ، وكان أكبر مكسب هو استخدام مجموعة الأخبار ، أحد مجالات التحقق. بالإضافة إلى الأخبار ، سيكون من الجيد الحصول على مجموعة من الأدبيات. بعد أن أمضى قدرا كبيرا من الوقت الذي أصبح واضحا أن ترجمة الآلة من الكتب الصينية مع أي نظام شعبي لا يمكن أن توفر - Nastasia يصبح شيئا مثل Nostosi Filipauny و Rogozhin - روغو رين . عادةً ما تشكل أسماء الشخصيات نسبة كبيرة إلى حد ما من العمل بأكمله وغالبًا ما تكون هذه الأسماء نادرة ، لذلك ، إذا لم يسبق للنموذج رؤيتها ، فمن المحتمل ألا يتمكن من الترجمة بشكل صحيح. يجب أن نتعلم من الكتب.
هنا نستبدل مهمة الترجمة بمهمة محاذاة النص. يجب أن أقول على الفور إنني أحب هذا الجزء أكثر من غيره ، لأنني شخصياً مغرم بدراسة اللغات والنصوص الموازية للكتب والقصص ، في رأيي ، هذه واحدة من أكثر طرق التعلم إنتاجية. كانت هناك العديد من الأفكار للمحاذاة ، وكان الأكثر إنتاجية هو ترجمة الجمل إلى فضاء متجه وحساب مسافة جيب التمام بين المرشحين للمباراة. تسمى ترجمة شيء ما إلى متجهات التضمين ، وفي هذه الحالة يكون تضمين جملة . يوجد العديد من المكتبات الجيدة لهذا الغرض [6] . عند تصور النتيجة ، يمكن ملاحظة أن النص الصيني ينزلق قليلاً بسبب حقيقة أن الجمل المعقدة باللغة الروسية غالبًا ما تُترجم إلى جملتين أو ثلاث باللغة الصينية.
بعد أن وجدنا كل ما هو ممكن على الإنترنت ، وقمنا بتسوية الكتب بأنفسنا ، فإننا نضيفها إلى مجموعتنا.
وكان في حلة رمادية باهظة الثمن، والأجانب، في لون الدعوى، والأحذية.
他穿一身昂贵的灰色西装،脚上的外国皮鞋也与西装颜色十分协调.
واشتهر انتزعها من قبعة رمادية في أذنه، يحمل قصب مع واحدة سوداء تحت ذراعه رأس
القلطي.
إنها تبدو أكثر من أربعين سنة
模样 年纪 在 四十 开外。
بعد التدريب على المبنى الجديد ، نمت BLEU إلى 20 في مجموعة بيانات عامة و 19.7 في مجموعة خاصة. كما لعبت دورًا في حقيقة أن الأعمال من التحقق دخلت بوضوح في التدريب. في الواقع ، لا ينبغي فعل هذا مطلقًا ، فهذا يسمى تسريبًا ، ويتوقف المقياس عن كونه مؤشرًا.
خاتمة
لقد قطعت الترجمة الآلية شوطًا طويلاً من الاستدلال والأساليب الإحصائية إلى الشبكات والمحولات العصبية. أنا سعيد لأنني تمكنت من إيجاد الوقت للتعرف على هذا الموضوع ، فهو بالتأكيد يستحق اهتمامًا وثيقًا من المجتمع. أود أن أشكر مؤلفي المسابقة والمشاركين الآخرين على التواصل الممتع والأفكار الجديدة!
[1] كوربورات روسية-صينية موازية
[2] دورة حول معالجة اللغة الطبيعية من MIPT
[3] مقالة رائعة الانتباه هو كل ما تحتاجه
[4] كمبيوتر محمول مع مثال للتعلم على kaggle
[5] قاعدة عامل تشغيل عام
[6] مكتبة للجملة متعددة اللغات حفلات الزفاف