الاختزال العصبي للعرض في الوقت الفعلي

صورة


يخلق العرض في الوقت الفعلي للواقع الافتراضي مجموعة فريدة من التحديات ، أهمها الحاجة إلى دعم التأثيرات الواقعية ، وتحقيق دقة عالية وزيادة معدلات التحديث. لمواجهة هذه التحديات ، طور باحثو Facebook Reality Labs DeepFocus ، وهو محرك عرض قدمناه في ديسمبر 2018 ؛ يستخدم AI لإنشاء رسومات فائقة الواقعية في أجهزة ذات أبعاد بؤرية متغيرة. في مؤتمر SIGGRAPH الظاهري لهذا العام ، قدمنا ​​مزيدًا من التطوير لهذا العمل ، وافتتحنا معلمًا جديدًا في رحلتنا نحو شاشات مستقبلية عالية الدقة للواقع الافتراضي.



توفر مقالتنا الفنية لـ SIGGRAPH بعنوان " Neural Supersampling for Real-Time Rendering " حلاً للتعلم الآلي يحول الصور الواردة منخفضة الدقة إلى صور عالية الدقة للعرض في الوقت الفعلي. تستخدم عملية الاختزال شبكات عصبية مدربة على إحصائيات المشهد لاستعادة التفاصيل الدقيقة ، مع تقليل التكلفة الحسابية لتقديم تلك التفاصيل في تطبيقات الوقت الفعلي.



الحل الذي نقدمه هو تقنية عينات فائقة مدربة مسبقًا تحقق اختزالًا فائقًا للمحتوى بمعدل 16 ضعفًا لتقديم دقة مكانية وزمنية عالية ، متفوقة بشكل كبير على العمل السابق.





رسم متحرك لمقارنة الصورة الملونة منخفضة الدقة المعروضة وصورة الإخراج فائقة الدقة 16x التي تم إنشاؤها بواسطة تقنية الاختزال العصبي الجديد.



ما هي هذه الدراسة حول؟



لتقليل تكلفة العرض على شاشات عالية الدقة ، تأخذ طريقتنا صورة إدخال تحتوي على 16 مرة بكسل أقل من صورة الإخراج المطلوبة. على سبيل المثال ، إذا كانت الشاشة المستهدفة بدقة 3840 × 2160 ، فإن الشبكة تبدأ بحجم صورة إدخال 960 × 540 ، ومحركات ألعاب otrendernnogo ، ثم تقوم باختزالها إلى الدقة المرغوبة للشاشة في الوقت الفعلي بعد المعالجة.



بينما كان هناك قدر هائل من الأبحاث التي أجريت حول الاختزال القائم على التعلم من الصور الفوتوغرافية ، فإن كل هذا العمل لم يعالج بشكل مباشر الاحتياجات الفريدة للمحتوى المقدم مثل الصور التي تنتجها محركات ألعاب الفيديو. هذا بسبب وجود اختلافات تصوير أساسية بين الصور المقدمة والصور الفوتوغرافية. في العرض في الوقت الفعلي ، تمثل كل عينة نقطة في كل من المكان والزمان. هذا هو السبب في أن المحتوى الذي تم عرضه يميل إلى التشويه الشديد ، والخطوط الخشنة ، وعينات أخرى تظهر في أمثلة الصور منخفضة الدقة في هذا المنشور. وبسبب هذا ، فإن اختزال المحتوى الذي يتم عرضه يصبح مهمة تنعيم واستيفاء على حد سواء ، بدلاً من مهمة إزالة التشويش والتعتيم.والتي تمت دراستها جيدًا من قبل خبراء رؤية الكمبيوتر. حقيقة أن الصور الواردة مشوهة للغاية وعدم وجود معلومات على الإطلاق للاستيفاء في وحدات البكسل تخلق صعوبات كبيرة في إنشاء إعادة بناء دقيقة للغاية للمحتوى المقدم مع تكامل الوقت.





, ( , ), .



من ناحية أخرى ، عند العرض في الوقت الفعلي ، قد يكون لدينا العديد من الصور الملونة التي تنتجها الكاميرا. كما أوضحنا في DeepFocus ، توفر محركات العرض الحديثة أيضًا معلومات مساعدة مثل قيم العمق. لاحظنا أنه مع الاختزال العصبي الفائق ، كانت المعلومات الإضافية التي توفرها نواقل الحركة مهمة بشكل خاص. تحدد متجهات الحركة العلاقات الهندسية بين وحدات البكسل في إطارات متتالية. بعبارة أخرى ، يشير كل متجه حركة إلى موقع بكسل فرعي حيث قد تكون نقطة سطح مرئية في إطار واحد في إطار سابق. بالنسبة للصور الفوتوغرافية ، تُحسب هذه القيم عادةً باستخدام طرق رؤية الكمبيوتر ، لكن مثل هذه الخوارزميات لحساب الحركة الضوئية تكون عرضة للأخطاء.في المقابل ، يمكن لمحرك التقديم أن يولد نواقل حركة كثيفة بشكل مباشر ، وبالتالي يوفر مدخلات موثوقة وكافية للاختزال العصبي الفائق المطبق على المحتوى المقدم.



تعتمد طريقتنا على الملاحظات المذكورة أعلاه ، وتجمع بين المعلومات الإضافية الإضافية مع مخطط الشبكة العصبية الزمانية المكانية الجديدة المصممة لزيادة جودة الصورة والفيديو إلى أقصى حد مع توفير الأداء في الوقت الفعلي.



عند اتخاذ قرار ، تتلقى شبكتنا العصبية كمدخلات سمات العرض (اللون وخريطة العمق وناقلات الحركة الكثيفة لكل إطار) لكل من الإطارات الحالية والعديد من الإطارات السابقة ، والتي يتم تقديمها بدقة منخفضة. إخراج الشبكة عبارة عن صورة ملونة عالية الدقة تتوافق مع الإطار الحالي. تستخدم الشبكة التعلم الخاضع للإشراف. أثناء التدريب ، مع كل إطار وارد منخفض الدقة ، تتم مطابقة صورة مرجعية عالية الدقة بأساليب منع التعرج ، وهي الصورة المستهدفة لتحسين التدريب.





أمثلة على النتائج. من أعلى إلى أسفل ، يتم عرض بيانات ألوان الإدخال المقدمة بدقة منخفضة ، ونتيجة الاختزال الفائق 16x بالطريقة المقترحة ، والصورة المستهدفة عالية الدقة ، التي يتم تقديمها في الوقت غير الحقيقي.







. , 16 , , , .







. , 16 , , , .



?



للعرض العصبي إمكانات هائلة في AR / VR. على الرغم من صعوبة هذه المهمة ، إلا أننا نريد إلهام الباحثين الآخرين للعمل على هذا الموضوع. نظرًا لأن مصنعي شاشات AR / VR يسعون للحصول على دقة أعلى ومعدلات إطارات أعلى وواقعية ، يمكن أن تكون تقنيات أخذ العينات العصبية الفائق وسيلة أساسية لاستعادة التفاصيل الدقيقة من بيانات المشهد ، بدلاً من العرض المباشر. يوضح لنا هذا العمل أن مستقبل الواقع الافتراضي عالي الدقة لا يكمن فقط في شاشات العرض ، ولكن أيضًا في الخوارزميات اللازمة لدفعها عمليًا.



مقال تقني كامل: Neural Supersampling for Real-time Rendering ، Lei Xiao، Salah Nouri، Matt Chapman، Alexander Fix، Douglas Lanman، Anton Kaplanyan، ACM SIGGRAPH 2020.



أنظر أيضا:






All Articles