مقالات مختارة حول التعلم الآلي: الحالات والأدلة والبحوث - يونيو 2020
ستجد هنا قائمة بالمواد التي تم إصدارها في يونيو باللغة الإنجليزية. كلها مكتوبة بدون أكاديمية زائدة ، وتحتوي على أمثلة برموز وروابط إلى مستودعات غير فارغة. معظم التقنيات المذكورة في المجال العام ولا تتطلب أجهزة شديدة التحمل للاختبار.
قررت منظمة العفو الدولية GPT Open AI أنه نظرًا لأن نموذج المحولات المدرب على النص يمكن أن يولد جملًا متماسكة كاملة ، إذا تم تدريب النموذج على تسلسل وحدات البكسل ، فيمكنه إنشاء صور مكبرة. يوضح Open AI كيف يسمح أخذ العينات عالي الجودة وتصنيف الصور الدقيق للنموذج الناتج بالتنافس مع أفضل النماذج التلافيفية في بيئات التعلم غير الخاضعة للرقابة.
قبل شهر أتيحت لنا الفرصة للعب مع الأداة، الذي يستخدم نموذج تعلُّم الآلة لتحويل الصور إلى فن بكسل جميل. إنه أمر ممتع ، ولكن من الصعب تخيل الاستخدام الواسع النطاق لهذه التقنية حتى الآن. لكن الأداة التي تنتج التأثير المعاكس أصبحت على الفور مهتمة جدًا بالجمهور. بمساعدة مزيل الوجه ، من الناحية النظرية ، سيكون من الممكن تحديد هوية الشخص عن طريق تسجيل الفيديو من كاميرات المراقبة الخارجية.
إذا لم يكن العمل مع صور البكسل كافيًا ، وتحتاج إلى إنشاء صورة مع صورة لشخص من رسم بدائي ، فقد ظهرت بالفعل أداة تعتمد على DNN لهذا الغرض. وفقًا لتصور المبدعين ، لا يلزم سوى المخططات العامة فقط ، وليس الرسوم التخطيطية الاحترافية - سيعيد النموذج نفسه وجه الشخص ، والذي سيتزامن مع الرسم التخطيطي. تم إنشاء النظام باستخدام إطار Jittor ، كما وعد المبدعون ، ستتم قريبًا إضافة شفرة مصدر Pytorch إلى مستودع المشروع.
بعد تسوية عمليات إعادة بناء الوجه ، ماذا عن بقية الجسم؟ بفضل تطوير DNN ، أصبح من الممكن تصميم نموذج ثلاثي الأبعاد لشكل بشري يعتمد على صورة ثنائية الأبعاد. كان القيد الرئيسي يرجع إلى حقيقة أن التنبؤات الدقيقة تتطلب تحليل سياق أوسع وبيانات المصدر بدقة عالية. ستساعد بنية الطبقات النموذجية وقدرات التعلم من النهاية إلى النهاية على حل هذه المشكلة. في المستوى الأول ، لتوفير الموارد ، يتم تحليل الصورة بأكملها بدقة منخفضة. ثم يتم تشكيل السياق ، وعلى مستوى أكثر تفصيلاً ، يقوم النموذج بتقييم الهندسة عن طريق تحليل الصورة عالية الدقة.
تتكون العديد من الأشياء التي تحيط بنا من دورات مختلفة التردد. في كثير من الأحيان ، من أجل فهم جوهر الظاهرة ، من الضروري تحليل المعلومات حول مظاهرها المتكررة. مع الأخذ في الاعتبار إمكانات تصوير الفيديو ، لم يعد من الصعب إصلاح التكرار ، كانت المشكلة في حسابها. غالبًا ما كانت طريقة مقارنة كثافة البكسل في الإطار بإطار تلو الآخر غير مناسبة بسبب اهتزاز الكاميرا أو الانسداد بالأشياء ، بالإضافة إلى اختلاف حاد في الحجم والشكل عند التكبير والتصغير. يحل النموذج الذي طورته Google هذه المشكلة الآن. يحدد الإجراءات المتكررة في الفيديو ، بما في ذلك تلك التي لم يتم استخدامها في التدريب. ونتيجة لذلك ، يعرض النموذج بيانات حول تكرار الإجراءات المتكررة المعترف بها في الفيديو. Colab متاح بالفعل .
في السابق ، كان عليك الاعتماد على خوارزميات معالجة إشارة معقدة لتحديد درجة الصوت. كان التحدي الأكبر هو فصل الصوت قيد الدراسة عن ضجيج الخلفية أو صوت الآلات المصاحبة. يتوفر الآن نموذج مدرب مسبقًا لهذه المهمة يكتشف الترددات العالية والمنخفضة. النموذج متاح للاستخدام على الويب والأجهزة المحمولة.
حالة إنشاء برنامج يمكنك من خلاله تتبع ما إذا كان الناس يلاحظون التباعد الاجتماعي أم لا. يخبر المؤلف بالتفصيل كيف اختار نموذجًا مدربًا مسبقًا ، وكيف تعامل مع مهمة التعرف على الناس ، وكيف ، باستخدام OpenCV ، حول الصورة إلى إسقاط عامودي لحساب المسافة بين الأشخاص. يمكنك أيضًا التعرف على شفرة المصدر للمشروع.
اليوم ، هناك الآلاف من الاختلافات في مستندات القالب الأكثر شيوعًا مثل الإيصالات والفواتير والشيكات. الأنظمة الآلية الموجودة والمصممة للعمل مع نوع محدود جدًا من القوالب. تقترح Google استخدام التعلم الآلي لهذا الغرض. تناقش المقالة بنية النموذج ونتائج البيانات التي تم الحصول عليها. ستصبح الأداة قريبًا جزءًا من خدمة Document AI .
تشارك شركة تريغو الإسرائيلية الناشئة تجربتها في استخدام التعلم الآلي ورؤية الكمبيوتر للبيع بالتجزئة. الشركة مورد لنظام يسمح للمخازن بالعمل دون تسجيل نقدي. يخبر المؤلفون عن المهام التي واجهوها ويشرحون سبب اختيارهم لـ PyTorch كإطار للتعلم الآلي ، و Allegro AI Trains للبنية التحتية وكيف تمكنوا من إنشاء عملية التطوير.