تحمل مخالفات قواعد المرور (SDA) من قبل السائقين مخاطر تشغيلية وسمعة وقانونية للمنظمات.
في السابق ، تم تحليل تسجيلات الفيديو من المركبات الرسمية لتحديد الانتهاكات. هذه عملية روتينية وتستغرق وقتًا طويلاً ، حيث تمت معالجة كميات كبيرة جدًا من الفيديو يدويًا. تقرر أتمتة هذه العملية وإنشاء نموذج للكشف عن انتهاكات حركة المرور لتشكيل اختيار فيديو موجه نحو المخاطر.
بادئ ذي بدء ، تقرر البحث عن المخالفات المرورية الجسيمة مثل عبور خط مزدوج مزدوج والقيادة عند إشارة مرور حمراء.
لتجزئة الصورة واكتشاف علامات الطريق ، تم استخدام شبكة عصبية تلافيفية من بنية U-Net. هذه البنية عبارة عن سلسلة من طبقات الالتفاف والتجمع ، والتي تقلل أولاً من الدقة المكانية للصورة ، ثم تزيدها ، بعد دمج الصور مع البيانات مسبقًا وتمريرها من خلال طبقات الالتفاف الأخرى.
لتدريب النموذج ، كانت هناك حاجة إلى مجموعة بيانات التدريب. لسوء الحظ ، كانت جميع مجموعات البيانات التي تم العثور عليها من الوصول المفتوح تتكون من صور للطرق غير القادمة من روسيا. كانت نتائج تدريب النموذج على الطرق الخارجية مخيبة للآمال: غالبًا ما رفض النموذج ببساطة تصور علامات الطريق المحلية على أنها علامات. لذلك ، تقرر البدء في إنشاء عينة تدريبية بشكل مستقل. تم قطع حوالي 1500 لقطة شاشة من الفيديو من المسجلات ، وتم وضع علامة على رصيف الطريق عليها باستخدام خدمة Supervise.ly (الشكل 1).
أصبح النموذج المدرب على مجموعة البيانات هذه قادرًا على التعرف على علامات الطريق على مقاطع الفيديو الخاصة بنا من المسجلات. تعثر الشبكة العصبية على خطوط صلبة على الفيديو ، وإذا كانت تحتوي على عدد محدد مسبقًا على الأقل من وحدات البكسل (بحيث لا يتم أخذ الخطوط العشوائية ، المتقطعة أو غير الصلبة في الاعتبار) ، فإنها تقربها إلى خط مستقيم ، والذي لم تعد سيارتنا تعبره.
يوضح الشكل 2 كيفية عمل U-Net: أعلاه هو التسجيل الأصلي من الزجاج الأمامي ، فيما يلي مثال للشبكة العصبية ، حيث المناطق الخضراء هي قناع وضع علامات على الطريق ، والخطوط الحمراء الرفيعة هي تقريب علامات الخط.
أظهر النموذج نفسه بشكل جيد للغاية في معالجة معظم مقاطع الفيديو من المسجلات ، ولكن يجب ملاحظة أن الصعوبات نشأت عند تحليل طريق مغطى بالثلوج أو مقطع فيديو تم تصويره في الظلام - في بعض الحالات ، تكون العلامات غير مرئية ببساطة.
لتحديد وجود إشارات المرور والسيارات ، تم استخدام شبكة عصبية سابقة التدريب Darknet + Yolo v3. هذه الشبكة العصبية هي نسخة محسنة من بنية YOLO ، والتي تعني لك فقط نظرة مرة واحدة. الميزة الرئيسية لـ YOLO v3 هي أنه يحتوي على ثلاث طبقات إخراج ، تم تصميم كل منها للكشف عن كائنات بأحجام مختلفة.
السمة الرئيسية لهذه الهندسة بالمقارنة مع غيرها هي أن معظم الأنظمة تطبق الشبكة العصبية عدة مرات على أجزاء مختلفة من الصورة ، وفي YOLO ، يتم تطبيق الشبكة العصبية على الصورة بأكملها مرة واحدة ومرة. تقسم الشبكة الصورة إلى نوع من الشبكة وتتنبأ بالمربعات المحيطة (الموازيات المتوازية والكائنات الموجودة المحيطة) واحتمال وجود هذه الكائنات المرغوبة لكل منطقة.
مزايا هذا النهج هي أنه عند عرض الصورة بأكملها ، تأخذ YOLO في الاعتبار سياق الصورة عند الكشف عن كائن والتعرف عليه. كما تتمتع YOLO بمزايا واضحة في الأداء: فهي أسرع ألف مرة من R-CNN وأسرع مئات المرات من Fast R-CNN.
يظهر مثال على عملية YOLO في الشكل 3. يتم إجراء تحليل الصورة إطارًا بإطار ، ويتم اكتشاف جميع إشارات المرور الحمراء الموجودة بشكل صحيح بواسطة الشبكة العصبية.
يتطلب تدريب شبكتين عصبيتين كاملتين جهاز كمبيوتر قويًا بما فيه الكفاية ، خاصة من حيث بطاقة الفيديو ، منذ ذلك الحين يتم استخدام حسابات GPU. استخدمنا معالج Core i7 من الجيل الثامن وبطاقة رسومات nvidia gtx1080 وذاكرة وصول عشوائي سعتها 32 غيغابايت. كانت خصائص النظام هذه كافية لتنفيذ المشروع.
بناءً على نتائج استخدام نماذج للكشف عن المخالفات المرورية ، يمكننا القول أنها كانت مشروعًا ناجحًا. كان الإدخال إلى البرنامج النصي عبارة عن فيديو من المسجل التلقائي لمدة شهر واحد بمدة إجمالية تبلغ 7 ساعات و 11 دقيقة ، وكان وقت استدلال النموذج (معالجة مقاطع الفيديو الواردة) 25 دقيقة. في نهاية معالجة جميع ملفات الفيديو ، تم قطع 112 جزءًا من 8 ثوانٍ (إجمالي 15 دقيقة) ، تم حفظ ما يقرب من 7 ساعات ، وتم التعرف على الانتهاكات بسهولة.