قبل بضع سنوات ، كان هناك مقال في قائمة قراءتي بعنوان GAN Progress and Evolution لتحسين الجودة والاستقرار وزيادة التباين . يصف النمو التدريجي لشبكات الخصومة التوليدية التي بدأت بالصور منخفضة الدقة وزادت الدقة مع تقدم التعلم. تم تخصيص العديد من المنشورات لهذا الموضوع حيث استخدم المؤلفون فكرتهم لإنشاء صور واقعية وفريدة من نوعها للوجوه البشرية.
عينة الصور التي تم إنشاؤها بواسطة GAN
بالنظر إلى هذه الصور ، يبدو أن الشبكات العصبية الأخرى ستحتاج إلى دراسة العديد من الأمثلة لتكون قادرة على إنشاء ما تنتجه GAN. تبدو بعض العوامل بسيطة نسبيًا وذات أساس جيد في الواقع - على سبيل المثال ، يجب أن يتطابق لون كلتا العينين. لكن الجوانب الأخرى معقدة بشكل خيالي ويصعب للغاية التعبير عنها. لذا ، على سبيل المثال ، ما هي التفاصيل اللازمة لربط العين والفم والجلد معًا في صورة وجه كاملة؟ بالطبع ، أنا أتحدث عن الآلة الإحصائية كشخص ، وقد يخدعنا حدسنا - قد يتبين أن هناك عددًا قليلًا نسبيًا من اختلافات العمل ، وأن مساحة الحل محدودة أكثر مما نتخيل. ربما الشيء الأكثر إثارة للاهتمام ليس الصور نفسها ، ولكن التأثير الرهيب الذي تحدثه علينا.
في وقت لاحق ، ذكرت البودكاست المفضلة PhyloPic ، وهي قاعدة بيانات لصور الصور الظلية للحيوانات والنباتات وأشكال الحياة الأخرى. تفكر في هذه الخطوط ، تساءلت - ماذا سيحدث إذا دربت نظامًا مثل ذلك الموضح في مقالة "شبكات GAN التقدمية" على مجموعة متنوعة جدًا من البيانات المتشابهة؟ هل سينتهي بنا المطاف بأنواع عديدة من عدة أنواع معروفة من الحيوانات ، أم سيكون لدينا العديد من الاختلافات التي ستؤدي إلى علم الحيوان المضاربي المدفوع بالشبكات العصبية؟ بغض النظر عن كيفية العمل ، كنت واثقًا من أنني أستطيع الحصول على بعض الرسومات الجيدة من هذا لجدار دراستي ، لذلك قررت إرضاء فضولي بتجربة.
لقد قمت بتكييف الشفرة من مقالة GAN التقدمية ودربت النموذج من خلال 12000 تكرار باستخدام قوة Google Cloud (8 GPUs NVIDA K80) ومجموعة بيانات PhyloPic بأكملها. كان إجمالي وقت التدريب ، بما في ذلك بعض الأخطاء والتجارب ، 4 أيام. لقد استخدمت النموذج المدرب النهائي لإنشاء 50 ألف صورة فردية ، ثم قضيت ساعات في البحث في النتائج وتصنيفها وتصفيتها وتصفيةها ومطابقتها. قمت أيضًا بتعديل بعض الصور قليلاً ، وقمت بتدويرها بحيث تواجه جميع المخلوقات نفس الاتجاه (لتحقيق الرضا البصري). هذا النهج العملي يعني أن ما تراه أدناه هو نوع من التعاون بيني والشبكة العصبية - كان عملًا إبداعيًا ، وقمت بتعديلاتي عليه.
أول شيء فاجأني هو مدى روعة النتائج من الناحية الجمالية. الكثير من هذا هو بالتأكيد انعكاس للمذاق الجيد للفنانين الذين ابتكروا الصور الأصلية. ومع ذلك ، كانت هناك أيضًا مفاجآت سارة. على سبيل المثال ، يبدو أنه كلما دخلت الشبكة العصبية في منطقة من عدم اليقين - سواء كانت قطعًا صغيرة لم تتقنها بعد ، أو رحلات من الخيال البيولوجي الضبابي - تظهر الانحرافات اللونية في الصورة. هذا أمر غريب لأن مجموعة المدخلات هي بالأبيض والأسود تمامًا ، مما يعني أن اللون لا يمكن أن يكون حلاً لأي مشكلة توليفية تم اعتمادها عند تدريب النموذج. أي لون هو قطعة أثرية خالصة لعقل الآلة. والمثير للدهشة أن أحد العوامل التي تسبب باستمرار انحرافًا لونيًا هو أجنحة الحشرات الطائرة. هذا يؤدي إلى الحقيقةأن النموذج يولد مئات الاختلافات من "الفراشات" ذات الألوان الزاهية مثل تلك الموضحة أعلاه. أتساءل عما إذا كان هذا يمكن أن يكون ملاحظة مفيدة - إذا قمت بتدريب نموذج باستخدام صور ذات درجات رمادية فقط وما زلت تحتاج إلى صور ملونة كاملة لإخراجها ، فإن البقع الملونة يمكن أن تكون طريقة مفيدة لإظهار المناطق التي يتعذر على النموذج فيها عرض مجموعة التدريب بدقة.
الجزء الأكبر من الناتج هو مجموعة كبيرة ومتنوعة من الصور الظلية المعروفة تمامًا - الطيور ، رباعيات الأرجل المختلفة ، العديد من الديناصورات اللطيفة الصغيرة الرشيقة ، الأرجل السحلية ، الأسماك ، الخنافس ، العناكب ، والأنسان.
الطيور
رباعي الأرجل
الديناصورات
الحوت
الخنافس
شبيه الانسان
اشياء غريبة
بمجرد أن تنتهي المخلوقات التي نعرفها ، فإننا نواجه أشياء غير مألوفة. كان من بين الأسئلة التي طرحت علي هذا السؤال: هل ستكون هناك خطط جسدية معقولة للحيوانات التي لا توجد في الطبيعة (ربما هجينة مخلوقات مدرجة في مجموعة بيانات الإدخال)؟ من خلال البحث الدقيق وقليل من pareidolia ، اكتشفت مئات الطيور ذات الأربع أرجل ، والغزلان برأس الأفعى وحوش رائعة أخرى.
الوحوش
ذهب أبعد من ذلك إلى الغموض ، وأثار النموذج أنماط مجردة غريبة وكيانات غير محددة التي تخلق شعورًا معينًا بـ "حيويتها".
مخلوقات مجردة
من هويته
أخذ عينات عشوائية
ما هو غير مرئي في الصور أعلاه هو وفرة الاختلاف في النتائج. لقد قمت بطباعة وتأطير العديد من هذه المجموعات من الصور ، وتأثير المئات من الصور الصغيرة المفصلة جنبًا إلى جنب على نطاق واسع مدهش للغاية. لإعطاء فكرة عن مقياس مجموعة البيانات الكاملة ، أقوم بتضمين أحد الأمثلة المطبوعة أدناه - هذه عينة عشوائية من مجموعة صور غير مفلترة.
تعرف على تفاصيل كيفية الحصول على مهنة رفيعة المستوى من الصفر أو المستوى الأعلى في المهارات والراتب من خلال الحصول على دورات SkillFactory المدفوعة عبر الإنترنت:
- دورة تعلم الآلة (12 أسبوعًا)
- تدريب مهنة علوم البيانات من الصفر (12 شهرًا)
- مهنة التحليلات مع أي مستوى بداية (9 أشهر)
- «Python -» (9 )