كيف نتحكم في جودة النماذج لاكتشاف الأشياء في الصور

صورة



يوم جيد. أسماءنا تاتيانا فورونوفا وإلفيرا ديامينوفا ، نحن منخرطون في تحليل البيانات في مركز 2M. على وجه الخصوص ، نقوم بتدريب نماذج الشبكات العصبية للكشف عن الأشياء في الصور: الأشخاص والمعدات الخاصة والحيوانات.



في بداية كل مشروع ، تتفاوض الشركة مع العملاء حول جودة الاعتراف المقبولة. يجب ألا يتم ضمان هذا المستوى من الجودة فقط عند تسليم المشروع ، ولكن يجب الحفاظ عليه أيضًا أثناء التشغيل الإضافي للنظام. اتضح أنه من الضروري مراقبة النظام وإعادة تدريبه باستمرار. أود تقليل تكاليف هذه العملية والتخلص من الإجراء الروتيني ، مما يتيح الوقت للعمل في مشاريع جديدة.



إعادة التدريب التلقائي ليست فكرة فريدة من نوعها ، حيث تمتلك العديد من الشركات أدوات خطوط أنابيب داخلية مماثلة. في هذه المقالة ، نود أن نشارك تجربتنا ونثبت أنه ليس من الضروري على الإطلاق أن تكون شركة ضخمة لتطبيق هذه الممارسات بنجاح.



أحد مشاريعنا هو عد الأشخاص في الطوابير . نظرًا لأن العميل شركة كبيرة ولديها عدد كبير من الفروع ، يتراكم الأشخاص في ساعات معينة كما هو مقرر ، أي يتم اكتشاف عدد كبير من الأشياء (رؤوس الأشخاص) بانتظام. لذلك ، قررنا البدء في تنفيذ إعادة التدريب التلقائي على وجه التحديد لهذه المهمة.



هذا هو شكل خطتنا. يتم تنفيذ جميع العناصر ، باستثناء عمل الخطاط ، في الوضع التلقائي:



  1. مرة واحدة في الشهر ، يتم تحديد جميع صور الكاميرا من الأسبوع الماضي تلقائيًا.
  2. xls- sharepoint, - : « ».
  3. ( ) – xml- ( ), – .
  4. « ». xls- ( – , – ). «». , , .



    , : (, ) , , (, - ). -.
  5. xls- «» > 0. , ( ). , . , , « ». , . , . , , .
  6. «» 0, – - .
  7. , , , , . , .


في النهاية ، ساعدتنا هذه العملية كثيرًا. لقد تتبعنا الزيادة في الأخطاء من النوع الثاني ، عندما أصبح العديد من الرؤوس "مقنعًا" فجأة ، وأثري مجموعة بيانات التدريب بنوع جديد من الرؤوس في الوقت المناسب وأعدنا تدريب النموذج الحالي. بالإضافة إلى ذلك ، تسمح لك هذه الرحلة بمراعاة الموسمية. نقوم باستمرار بتعديل مجموعة البيانات مع مراعاة الوضع الحالي: غالبًا ما يرتدي الناس القبعات أو على العكس ، يأتي الجميع تقريبًا إلى المؤسسة بدونهم. في الخريف ، يزداد عدد الأشخاص الذين يرتدون القلنسوات. يصبح النظام أكثر مرونة ويتفاعل مع الموقف.



على سبيل المثال ، في الصورة أدناه - أحد الفروع (في يوم شتوي) ، لم يتم عرض إطاراتها في مجموعة بيانات التدريب:



صورة



إذا قمنا بحساب المقاييس لهذا الإطار (TP = 25 ، FN = 3 ، FP = 0) ، فقد تبين أن الاستدعاء 89٪ ، والدقة 100٪ ، والمتوسط ​​التوافقي بين الدقة والاكتمال حوالي 94. 2٪ (حول المقاييس أدناه). نتيجة جيدة لغرفة جديدة.



تحتوي مجموعة بيانات التدريب الخاصة بنا على أغطية وأغطية ، لذلك لم يخلط النموذج ، ولكن مع ظهور وضع القناع ، بدأ يرتكب أخطاء. في معظم الحالات ، عندما يكون الرأس مرئيًا بوضوح ، لا تنشأ مشاكل. ولكن إذا كان الشخص بعيدًا عن الكاميرا ، فعندئذ بزاوية معينة ، يتوقف النموذج عن الكشف عن الرأس (الصورة اليسرى هي نتيجة عمل النموذج القديم). بفضل العلامات شبه الأوتوماتيكية ، تمكنا من إصلاح مثل هذه الحالات وإعادة التدريب على النموذج في الوقت المناسب (الصورة الصحيحة هي نتيجة النموذج الجديد).



صورة



إغلاق سيدة:



صورة



عند اختبار النموذج ، اخترنا الإطارات التي لم تشارك في التدريب (مجموعة بيانات مع عدد مختلف من الأشخاص على الإطار ، من زوايا مختلفة وأحجام مختلفة) ، لتقييم جودة النموذج ، استخدمنا الاستدعاء والدقة.



الاستدعاء - يُظهر الاستيفاء نسبة الأشياء التي تنتمي حقًا إلى فئة إيجابية ، توقعنا بشكل صحيح.



الدقة - توضح الدقة نسبة الأشياء التي تم التعرف عليها ككائنات من فئة إيجابية ، توقعناها بشكل صحيح.



عندما يحتاج العميل إلى رقم واحد ، وهو مزيج من الدقة والاكتمال ، قدمنا ​​الوسط التوافقي أو مقياس F. اعرف المزيد حول المقاييس.



بعد دورة واحدة ، حصلنا على النتائج التالية:



صورة



ظهرت اكتمال 80 ٪ قبل أي تغييرات بسبب حقيقة أنه تم إضافة عدد كبير من الأقسام الجديدة إلى النظام ، ظهرت وجهات نظر جديدة. بالإضافة إلى ذلك ، تغير الموسم ؛ وقبل ذلك ، تم تقديم "خريف وشتاء الناس" في مجموعة بيانات التدريب.



بعد الدورة الأولى ، أصبح الاكتمال 96.7٪. بالمقارنة مع المادة الأولى ، وصل الاكتمال إلى 90٪. ترجع هذه التغييرات إلى حقيقة أن عدد الأشخاص في الأقسام قد انخفض الآن ، وبدأوا في التداخل مع بعضهم البعض أقل بكثير (نفدت السترات الضخمة) ، وتضاءل تنوع القبعات.



على سبيل المثال ، قبل أن يكون المعيار هو نفس عدد الأشخاص كما في الصورة أدناه.



صورة



هكذا هي الأمور الآن.



صورة



تلخيص ، دعنا نسمي مزايا الأتمتة:



  1. الأتمتة الجزئية لعملية الوسم.
  2. ( ).
  3. ( ).
  4. . .
  5. . , .


الجانب السلبي هو العامل البشري من جانب مصمم الترميز - قد لا يكون مسؤولًا بما يكفي عن الترميز ، وبالتالي الترميز مع التداخل أو استخدام مجموعات ذهبية - المهام ذات الإجابة المحددة مسبقًا ، والتي تخدم فقط للتحكم في جودة الترميز ، ضرورية. في العديد من المهام الأكثر تعقيدًا ، يجب أن يتحقق المحلل شخصيًا من الترميز - في مثل هذه المهام ، لن يعمل الوضع التلقائي.



بشكل عام ، أثبتت ممارسة إعادة التدريب التلقائي أنها قابلة للتطبيق. يمكن اعتبار هذا التشغيل الآلي كآلية إضافية تسمح بالحفاظ على جودة التعرف عند مستوى جيد أثناء التشغيل الإضافي للنظام.



مؤلفو المقال: تاتيانا فورونوفا (tvoronova) ، إلفيرا ديامينوفا (الفيرا)



All Articles