كانت المهمة هي تحليل وحساب تدفق العملاء في المكتب. هناك العديد من الحلول لمهام مماثلة ، مثل استخدام شبكة Convolution العصبية (CNN) ، مثل YOLO (أنت تنظر مرة واحدة فقط) ، SSD (اكتشاف طلقة واحدة) ، R-CNN ، إلخ. ولكن نظرًا لأن بيانات الإدخال كانت عبارة عن أجزاء فيديو ذات دقة وتنسيقات مختلفة ، اعتمادًا على طراز المسجل ومجموعة الإعدادات ، فقد تقرر تجربة طريقة الطرح في الخلفية. أردت أيضًا تجربة هذه الخوارزمية ، لأنني لم أجدها من قبل وكان من المثير للاهتمام ما هي قادرة عليه.
تعتمد هذه الطريقة على الخلفية ، كما يوحي الاسم. الأساس هو مقارنة الإطار التالي بالإطار السابق للتغييرات. بمعنى ، إذا لم تتغير الخلفية أو لم تتغير بشكل كبير (أوراق الشجر المتمايلة ، حركة السحب ، إلخ) ، فلن تحدد هذه الطريقة هذه المناطق في الإطار والفيديو. هناك أيضًا عدد كبير من الخوارزميات الداخلية التي يعتمد عليها الطرح في الخلفية ، والتي تحدد التغييرات بطرق مختلفة. بعض الخوارزميات حساسة للغاية للتغييرات ، أي المطر الخفيف ، وليس التغييرات القوية في تيجان الأشجار بسبب الرياح ، كل هذه الكائنات ستكون مرئية على قناع الخوارزمية. تقوم الخوارزميات الأخرى ببناء الأقنعة بشكل تقريبي ، حيث تجمع بين العديد من البكسلات في كائن واحد ، أي شخصين يتحركان جنبًا إلى جنب ، سيتم تعريفهما على أنهما شخص واحد ،لذلك ، من المهم اختيار الخوارزمية المناسبة لمهمتك وتجربة إعدادات مختلفة (عدد الإطارات للمقارنة ، والحدود لقطع المناطق ، وما إلى ذلك)
هناك أيضًا العديد من الإعدادات داخل الخوارزمية يمكنها تحسين الجودة ، ويبدو القناع النهائي أفضل بكثير لتحديد الكائنات.
بعد إعدادات إضافية وكتابة كود إضافي لتسليط الضوء على المناطق المتغيرة وإحصاء تدفق العميل بشكل أكبر ، اتضح أنه يحقق نتيجة جيدة من حيث حساب عدد الأشخاص ، حيث كانت أول تجربة مع طرق مكتبة CV2 python ، دون استخدام الشبكات العصبية.
لسوء الحظ ، هذه الطريقة لها عيوبها ، وهذا هو اختيار بعض القطع الأثرية ، بالإضافة إلى أنها ذات وظائف محدودة ونطاق ضيق للاستخدام ، ولكن كخبرة وإلمام بقدرات Computer Vision ، فرصة ممتازة.
أقترح استخدام خبرتي في استخدام الأدوات والخدمات مفتوحة المصدر لحل مشاكل رؤية الكمبيوتر.