عندما تكون بياناتك متسخة

تمثل القصة أدناه توضيحًا رائعًا لكيفية حصول الذكاء الاصطناعي على فكرة خاطئة حول المشكلة التي نطلب حلها: قام



الباحثون في جامعة توبنغن بتدريب شبكة عصبية للتعرف على الصور ، ثم طلبوا تحديد أجزاء الصور الأكثر أهمية لاتخاذ القرار. عندما طلبوا من الشبكة العصبية تسليط الضوء على أهم وحدات البكسل لفئة التنش (أنواع الأسماك) ، هذا ما أبرزته:







أصابع بشرية وردية على خلفية خضراء.



أصابع بشرية على خلفية خضراء!



لماذا كانت تبحث عن أصابعها في الصور بينما كان عليها البحث عن سمكة؟ اتضح أن معظم صور التنش في مجموعة البيانات كانت صورًا لأشخاص يحملون سمكة كتذكار. ليس لديها سياق لما هو التنش حقًا ، لذلك تفترض أن الأصابع جزء من السمكة. تم تدريب



الشبكة العصبية المولدة للصور في ArtBreeder ( BigGAN ) على نفس مجموعة بيانات ImageNet ، وعندما تطلب منها إنشاء خط ، فإنها تفعل الشيء نفسه:





أربع صور لأشخاص بيض يحملون شيئًا أخضر ومرقط. في بعض الصور ، يكون للشيء الأخضر قوام مريب أكثر ، لكن لا يوجد في أي مكان رأس وذيل واضحان. إنه مجرد جسم سمكة كبيرة. يتم مزج الزعانف السفلية بشكل معقد مع العديد من الأصابع البشرية الوردية



البشر أكثر تميزًا بكثير من الأسماك ، وأنا مفتون بالأصابع البشرية المبالغ فيها.



هناك فئات أخرى على ImageNet بها مشكلات مشابهة. هذا ميكروفون.





أربع صور ذات خلفية داكنة جدًا. يتشابه الجزء العلوي الأيسر في الشكل مع ميكروفون به صوت يربك رقيق أو رأس مصنوع من شعر بشري رمادي. البعض الآخر يشبه الناس لقد



تعرفت الشبكة العصبية على الإضاءة المتناقضة للمشهد والشكل البشري ، لكن العديد من الصور لا تحتوي على أي شيء يشبه الميكروفون عن بعد. في العديد من صور مجموعة التدريب ، يعد الميكروفون جزءًا صغيرًا من الصورة يمكن التغاضي عنه بسهولة. تظهر مشاكل مماثلة مع الآلات الصغيرة مثل "الفلوت" و "المزمار".



في حالات أخرى ، هناك دليل على خطأ في تسمية الصور. في هذه الصور التي تم إنشاؤها لـ "خوذة كرة القدم" ، يصور البعض بوضوح أشخاصًا لا يرتدون خوذات ، والبعض الآخر يشبه خوذات البيسبول بشكل مريب.





أربع صور تم إنشاؤها. المرشحان الأولان هما أشخاص ، لا يرتدي أي منهما خوذة كرة القدم (على الرغم من أن شعرهم قد يكون غريبًا بعض الشيء ؛ من الصعب تحديده لأن الآخرين غريبون جدًا أيضًا). في أسفل اليسار ، يرتدي رجل خوذة تشبه كرة البيسبول المعدنية. أسفل اليمين ... أسفل اليمين - خوذة كرة قدم متقاطعة مع سمكة كرتونية مسننة



ImageNet هي مجموعة بيانات فوضوية حقًا. لديه فئة للعجامة ، ولكن ليس للزرافة. بدلاً من الحصان كفئة ، هناك حميض (لون معين للحصان). تعتبر دراجة لشخصين فئة ، لكن لوح التزلج ليس كذلك.





أربع صور من الواضح أنها نوع من أجسام الدراجات متعددة العجلات. تميل العجلات إلى أن تكون مرنة مع قضبان منقسمة بشكل غريب ، وفي بعض الأحيان تنفصل العجلات. هناك أشخاص يشبهون الدراجين ، ولكن من الصعب فصلهم عن الدراجات ،



والسبب الرئيسي لتلوث ImageNet هو أن قاعدة البيانات يتم جمعها تلقائيًا على الإنترنت. كان من المفترض أن تتم تصفية الصور من قبل عمال التعهيد الجماعي الذين قاموا بوضع علامات عليها ، لكن العديد من الأشياء الغريبة قد تسربت. و عموما بفظاعةعدد الصور والعلامات التي لا ينبغي بالتأكيد أن تظهر في مجموعة بيانات البحث العامة ، والصور التي تبدو وكأنها وصلت إلى هناك دون موافقة الأشخاص الذين تم تصويرهم. بعد سنوات من الاستخدام الواسع من قبل مجتمع الذكاء الاصطناعي ، ورد أن فريق ImageNet أزال بعضًا من هذا المحتوى. كما تمت إزالة مجموعات البيانات الأخرى التي تنطوي على مشاكل ، مثل تلك التي تم جمعها من الصور عبر الإنترنت دون إذن أو من لقطات المراقبة (لا تزال مجموعات أخرى مثل Clearview AI قيد الاستخدام ). أشار



فيناي برابهو وأبابا بيرهاني إلى مشاكل خطيرة مع مجموعة بيانات أخرى هذا الأسبوع ، 80 مليون صورة صغيرة.... اقتطع النظام الصور ووسمها تلقائيًا باستخدام شبكة عصبية أخرى مدربة على نصوص الإنترنت. قد تشعر بالصدمة ، ولكن هناك بعض الأشياء المسيئة في نص الإنترنت. حذف MIT CSAIL مجموعة البيانات هذه نهائيًا ، واختار عدم تصفية جميع الصور البالغ عددها 80 مليون صورة يدويًا.



هذه ليست مشكلة تتعلق بالبيانات السيئة فحسب ، بل مع نظام يمكن من خلاله لمجموعات البحث الكبيرة إصدار مجموعات بيانات بها مشكلات ضخمة مثل اللغة المسيئة وعدم الموافقة على التقاط الصور. كما عبرت عالمة أخلاقيات التكنولوجيا شانون فالور ، "بالنسبة لأي مؤسسة تقوم بالتعلم الآلي اليوم ،" لم نكن نعرف "ليس عذراً ، ولكنه إقرار." مثلالخوارزمية التي رفعت مستوى أوباما إلى رجل أبيض ، ImageNet هي نتاج مجتمع التعلم الآلي حيث يوجد نقص كبير في التنوع (هل لاحظت أن معظم الأشخاص الذين تم تكوينهم في هذه المدونة هم من البيض؟ جزء من الثقافة الغربية يعتبر اللون الأبيض هو اللون الافتراضي).



يتطلب الأمر الكثير من العمل لإنشاء أفضل مجموعة بيانات - وفهم مجموعات البيانات التي لا ينبغي أبدًا إنشاؤها بشكل أفضل. لكن هذا العمل يستحق القيام به.



أنظر أيضا:






All Articles