كيف قمت بتدريس دورة Samsung AI / ML / DL

مرحبا. سأخبرك عن وجهة نظري للذكاء الاصطناعي ، إذا جاز التعبير ، من داخل العملية. بمعنى العملية التربوية والعلمية.



لقد حدث أنه في عام 1998 التحقت بالمدرسة العليا في الأكاديمية الزراعية الحكومية الروسية واخترت الذكاء الاصطناعي / ML كموضوع لعملي العلمي. كانت هذه هي الأوقات الصعبة للعصر الجليدي التالي للشبكات العصبية. في هذا الوقت نشر يانغ لوكون عمله الشهير "التعلم القائم على التدرج المطبق على التعرف على المستندات" حول مبادئ تنظيم الشبكات التلافيفية ، والتي ، في رأيي ، كانت مجرد بداية لإذابة جديدة. من المضحك أنني في ذلك الوقت كنت أعمل على بعض العناصر المماثلة ، وصحيح أنهم يقولون إن الفكرة ، عندما يحين وقتها ، تكون في الهواء. ومع ذلك ، لم يتم منح الجميع لإحيائه. لسوء الحظ ، لم أنتهي من عملي حتى الدفاع ، لكنني أردت دائمًا إنهاءه يومًا ما.





المصدر: Hitecher



والآن ، بعد 20 عامًا ، عندما بدأت العمل كمدرس في الجامعة الفيدرالية الجنوبية وفي نفس الوقت أدرس في برنامج التعليم الإضافي "Samsung IT School" ، أتيحت لي فرصة ثانية. عرضت سامسونج على SFedU أن تكون أول من يطلق مسار التدريب "Samsung IT Academy" على الذكاء الاصطناعي للبكالوريوس والماجستير. كانت لدي بعض المخاوف من أنه سيكون من الممكن تنفيذ المنهج بأكمله بالكامل ، لكنني استجبت بحماس للعرض الخاص بقراءة الدورة. أدركت أن الدائرة مغلقة ، ولا يزال لدي فرصة ثانية لفعل ما فشلت فيه ذات مرة. تجدر الإشارة هنا إلى أن دورة Samsung AI / ML هي واحدة من أفضل دورات اللغة الروسية المفتوحة حاليًا والمتاحة مجانًا على منصة Stepik ( https://stepik.org/org/srr). ومع ذلك ، في حالة وجود برنامج جامعي ، بالإضافة إلى الدورة النظرية / العملية ، تمت إضافة جزء المشروع. أي أن المنهج السنوي لـ "أكاديمية سامسونج لتقنية المعلومات" يعتبر متقنًا في حالة دراسة وحدتين هما "الشبكات العصبية ورؤية الكمبيوتر" ، "الشبكات العصبية ومعالجة النصوص" مع الحصول على شهادات Stepik المناسبة ، وكذلك تنفيذ مشروع فردي. انتهت الدورة بالدفاع عن مشاريع الطلاب ، والتي تمت دعوة الخبراء إليها ، بما في ذلك. موظفي مركز موسكو للذكاء الاصطناعي سامسونج.



ومنذ سبتمبر 2019 ، بدأنا دورة في معهد التقنيات العالية و Piezotechnics في SFedU. بالطبع ، جاء عدد كبير نسبيًا من الطلاب إلى برنامج HYIP وبعد ذلك كان هناك تسرب خطير. لم يكن البرنامج معقدًا للغاية ، ولكنه ضخم - كانت المعرفة مطلوبة:



  • الجبر الخطي،

  • نظرية الاحتمالات،

  • حساب التفاضل،

  • لغة برمجة بايثون.



بالطبع ، كل المعارف والمهارات المطلوبة لا تتجاوز مناهج السنة الثالثة لبرنامج البكالوريوس في الجامعة. سأقدم بعض الأمثلة ، من تلك الأكثر تعقيدًا:



  • أوجد مشتق دالة التنشيط للظل الزائدي وعبر عن النتيجة من حيث th(x) ... 

  • أوجد مشتق دالة التنشيط السيني وعبر عن النتيجة بدلالة السيني σ(x) ... 

  • في الرسم البياني للحسابات الموضح في الشكل. 1 يقدم وظيفة معقدة y مع المعلمات b1,b2,c1,c2 ... للراحة ، تمت إضافة نتائج وسيطة للعمليات مثل z1÷z9 ... من الضروري تحديد ما سيساوي المشتق y حسب المعلمة b1









لأكون صادقًا ، لقد درست شيئًا ما على عجل ، خاصة من الخوارزميات الحديثة للعمل مع الشبكات العصبية ، مع الطلاب. في البداية ، كان من المفترض أن يدرس الطلاب أنفسهم محاضرات فيديو لدورة Samsung التدريبية عبر الإنترنت على Stepik ، وفي الفصل الدراسي سننظم ورش عمل فقط. ومع ذلك ، فقد اتخذت قرارًا بقراءة النظرية أيضًا. يرجع هذا القرار إلى حقيقة أنه مع المعلم يمكنك فرز موضوع غير مفهوم ومناقشة الأفكار التي نشأت وما إلى ذلك. تلقى الطلاب مهام عملية في شكل واجبات منزلية. اتضح أن النهج كان صحيحًا - في الفصل ، تم الحصول على جو حيوي ، ورأيت أن الطلاب بشكل عام كانوا ناجحين تمامًا في إتقان المادة. 



بعد شهر ، انتقلنا بسلاسة من نموذج الخلايا العصبية إلى أول بنى بسيطة متصلة بالكامل ، من الانحدار البسيط إلى التصنيف متعدد الفئات ، من حساب التدرج البسيط إلى خوارزميات تحسين النسب المتدرجة SGD ، ADAM ، إلخ. أكملنا النصف الأول من الدورة التدريبية بالشبكات التلافيفية وبنى الشبكات العميقة الحديثة. كانت المهمة الأخيرة لوحدة Computer Vision الأولى هي المشاركة في مسابقة " Dirty vs Cleaned " على Kaggle مع تجاوز حد الدقة البالغ 80٪. 



عامل آخر برأيي مهم: لم نكن مغلقين داخل الجامعة. عقد منظمو المسار ندوات عبر الإنترنت ودروسًا رئيسية لنا مع خبراء مدعوين من مختبرات Samsung. زادت مثل هذه الأحداث من دافع الطلاب ، وأنا ، لأكون صادقًا :). على سبيل المثال ، كان هناك حدث توجيه مهني مثير للاهتمام - جسر عبر الإنترنت بين الفصول الدراسية في SFedU وجامعة موسكو الحكومية وسامسونج ، حيث تحدث موظفو مركز موسكو للذكاء الاصطناعي في Samsung عن الاتجاهات الحديثة في تطوير AI / ML وأجابوا على أسئلة الطلاب.



بدأ الجزء الثاني من الدورة ، المخصص لمعالجة النصوص ، بنظرية عامة في التحليل اللغوي. ثم تم تعريف الطلاب على نماذج النص المتجه و TF-IDF ، ثم دلالات التوزيع و word2vec. وبناءً على النتائج ، تم عقد العديد من ورش العمل الممتعة: إنتاج حفلات الزفاف بالكلمة ، وتوليد الأسماء والشعارات. ثم انتقلنا إلى النظرية والتطبيق لاستخدام الشبكات التلافيفية والمتكررة لتحليل النص.



في حين أن النقطة هي نعم ، فقد نشرت مقالًا في مجلة VAK وبدأت في إعداد المقالة التالية ، وجمع المواد تدريجيًا لأطروحة جديدة. لم يجلس طلابي أيضًا ، لكنهم بدأوا العمل في مشاريعهم الأولى. اختار الطلاب الموضوعات بأنفسهم ، ونتيجة لذلك حصلوا على 7 مشاريع تخرج في مجالات مختلفة من تطبيق الشبكات العصبية:



  1. « » , .

  2. « » .

  3. « » .

  4. « » .

  5. « » .

  6. « » .

  7. « » , .







تم الدفاع عن جميع المشاريع ، ولكن درجة التعقيد والتفصيل كانت مختلفة ، وهو ما انعكس ، بحق ، في تقييمات المشاريع. بناءً على نتائج الدفاع ، تم اختيار أربعة مشاريع للمنافسة السنوية لأكاديمية Samsung لتكنولوجيا المعلومات . ويمكنني أن أقول بفخر أن لجنة التحكيم منحت اثنين من مشاريعنا أعلى الأماكن. سأقدم أدناه وصفًا موجزًا ​​لهذه المشاريع ، بناءً على المواد التي قدمها طلابي Grateful Alexander و Krikunov Stanislav و Pandov Vyacheslav ، والتي نشكرهم عليها كثيرًا. أعتقد أن الحلول التي قدموها يمكن تقييمها على أنها عمل بحثي جاد.



I « » «IT Samsung».

« », ,



كان المشروع عبارة عن إنشاء تطبيق للهاتف المحمول يحدد ويقيس النشاط البدني في التدريب باستخدام مستشعرات الهاتف المحمول. يوجد الآن العديد من تطبيقات الهاتف المحمول التي يمكنها التعرف على النشاط البدني للشخص: Google Fit و Nike Training Club و MapMyFitness وغيرها. ومع ذلك ، لا تستطيع هذه التطبيقات التعرف على أنواع معينة من التمارين وحساب عدد مرات التكرار.

أحد مؤلفي المشروع Grateful Alexander ، خريجي عام 2015 من برنامج Samsung IT School ، وأنا ، ليس من دون فخر ، فرحنا بأن المعرفة المكتسبة في تطوير الأجهزة المحمولة في المدرسة تم تطبيقها بهذه الطريقة.





كيف يتم التعرف على النشاط البدني؟ لنبدأ بكيفية تحديد توقيت التمرين. لاكتشاف بداية التمارين ونهايتها ، قرر الطلاب استخدام وحدة التسريع المحسوبة كجذر لمجموع مربعات التسارع على طول المحاور. تم اختيار عتبة معينة ، والتي تمت مقارنة قيمة التسارع الحالية بها. إذا تم تجاوز العتبة (مشتق التسارع موجب) ، فإننا نعتبر أن التمرين قد بدأ. إذا كان التسارع الحالي أقل من العتبة (مشتق العجلة سالب) ، فإننا نعتبر أن التمرين قد انتهى. لسوء الحظ ، لا يسمح هذا الأسلوب بالمعالجة في الوقت الفعلي. التحسين المحتمل هو استخدام نافذة منزلقة على البيانات مع حساب النتيجة في كل خطوة من خطوات التحول.



تم جمع مجموعة البيانات من قبل المؤلفين أنفسهم. عند إجراء 7 تمارين مختلفة ، تم استخدام 3 أنواع من الهواتف الذكية (إصدارات Android 4.4 ، 9.0 ، 10.0). تم توصيل الهاتف الذكي باليد باستخدام جيب خاص. تم إجراء ما مجموعه 1800 تكرار من قبل ثلاثة متطوعين. أثناء التنفيذ ، يمكن أن تنشأ أخطاء في التقنية لأي سبب من الأسباب ، لذلك تم تنفيذ إجراء تنظيف العينة. لهذا ، تم بناء توزيعات الارتباط المتبادل لجميع أنواع التمارين. ثم ، لكل تمرين ، تم تحديد عتبة الارتباط ، والتي تحتها تعتبر التمرين غير مناسب ويتم استبعادها من العينة.   



نفس التمرين ، اعتمادًا على التكرار ، له وقت تنفيذ مختلف. لمكافحة ذلك ، تقرر استيفاء البيانات بعدد ثابت من العينات ، بغض النظر عن عدد العينات التي تأتي من أجهزة الاستشعار. تم الحصول على 50 - ضعف معدل أخذ العينات ، مع احتساب المواضع الوسيطة كمتوسط ​​حسابي للمجاورة. تلقى 200 - تجاهل كل 2 عدد. في هذه الحالة ، سيكون عدد العينات ثابتًا. وبالمثل ، لأي نسبة من إدخال عدد العينات إلى رقم الإخراج المطلوب.



بالنسبة للشبكة العصبية ، تقرر تطبيق البيانات في مجال التردد. نظرًا لأن وزن جسم الشخص كبير جدًا ، يمكن للمرء أن يتوقع أن تكمن ترددات الإشارة المميزة في منطقة التردد المنخفض من الطيف في معظم التمارين القياسية. في هذه الحالة ، يمكن اعتبار الترددات العالية إما تشويشًا أثناء التنفيذ أو ضوضاء من أجهزة الاستشعار. ماذا تعني؟ هذا يعني أنه يمكننا العثور على طيف الإشارة باستخدام FFT واستخدام 10-20 ٪ فقط من البيانات للتحليل. لماذا القليل جدا؟ نظرًا لأن 1) الطيف متماثل ، يمكنك قطع نصف المكونات على الفور 2) المعلومات الأساسية - فقط 20-40 ٪ من الجزء الإعلامي من الطيف. تصف هذه الافتراضات تمارين القوة البطيئة بشكل خاص.





سلاسل زمنية طبيعية لتمارين مختلفة





طيف



طبيعي لتمارين مختلفة قبل المعالجة بواسطة الشبكة العصبية ، يتم تطبيع طيف البيانات إلى القيمة القصوى بين المحاور الثلاثة من أجل ملاءمة جميع عينات التمرين في نطاق السعة 0-1. في هذه الحالة ، يتم الحفاظ على النسب بين المحاور.



تقوم الشبكة العصبية بمهمة تصنيف التمارين. هذا يعني أنه ينتج متجهًا للاحتمالات لجميع التمارين من القائمة التي تم تدريبها من خلالها. مؤشر الحد الأقصى للعنصر في هذا المتجه هو رقم التمرين الذي تم إجراؤه. علاوة على ذلك ، إذا كانت الثقة في التمرين الذي تم إجراؤه أقل من 85٪ ، فيُعتبر أنه لم يتم أداء أي من التمارين. تتكون الشبكة من 3 طبقات: 4 تلافيفية ، 3 متصلة بالكامل ، عدد الخلايا العصبية الناتجة يساوي عدد التمارين التي نريد التعرف عليها. في الهندسة المعمارية ، لتوفير موارد الحوسبة ، يتم استخدام التلافيفات ذات الحجم الأساسي 3x3 فقط. يتم تبرير البنية البسيطة نسبيًا للشبكة من خلال موارد الحوسبة المحدودة للهواتف الذكية ؛ في مهمتنا ، يلزم التعرف مع الحد الأدنى من التأخير. 





وصف بنية الشبكة العصبية



يتم تدريب استراتيجية تدريب الشبكة العصبية على فترات باستخدام تطبيع الدُفعة لبيانات التدريب حتى تصل وظيفة الخسارة في عينة التدريب إلى قيمتها الدنيا.



النتائج: مع أداء تمرين عالي الجودة أكثر أو أقل ، تكون ثقة الشبكة 95-99٪. في مجموعة التحقق ، كانت الدقة 99.8٪.





خطأ أثناء التدريب على





مصفوفة خطأ لمجموعة التحقق من الصحة



لشبكة عصبية تم بناء الشبكة العصبية في تطبيق جوال وأظهرت نتائج مماثلة كما في التدريب.



اختبرت الدراسة أيضًا نماذج التعلم الآلي الأخرى المستخدمة اليوم لحل مشاكل التصنيف: الانحدار اللوجستي ، والغابات العشوائية ، و XG Boost. بالنسبة لهذه الأبنية ، تم استخدام تنظيم Tikhonov (L2) والتحقق المتبادل والبحث الشبكي للعثور على المعلمات المثلى. ونتيجة لذلك ، كانت مؤشرات الدقة كما يلي:



  • الانحدار اللوجستي: 99.4٪

  • غابات عشوائية: 99.1٪

  • XG دفعة: 97.5٪



ساعدت المعرفة المكتسبة أثناء التدريب في Samsung IT Academy مؤلفي المشروع على توسيع آفاق اهتماماتهم وقدمت مساهمة لا تقدر بثمن عند الالتحاق ببرنامج الماجستير في معهد Skolkovo للعلوم والتكنولوجيا. في الوقت الحالي ، يُجري طلابي بحثًا هناك في مجال التعلم الآلي لأنظمة الاتصالات. 



كود على جيثب



II « » «IT Samsung».

« »,







تم وصف عمل النموذج جيدًا في هذه الشريحة:







يبدأ كل شيء بصورة. في التطبيق المقدم ، يأتي من Telegram bot. باستخدامه ، يجد Dlib frontal_face_detector جميع الوجوه في الصورة. ثم يتم الكشف عن 68 نقطة رئيسية ثنائية الأبعاد لكل وجه باستخدام Dlib shape_predictor_68_face_landmarks. يتم تسوية كل مجموعة على النحو التالي: توسيط (بطرح متوسط ​​X و Y) ومقاس (قسمة على الحد الأقصى المطلق X و Y). كل إحداثي للنقطة المقيسة ينتمي إلى الفترة [-1 ، +1].



ثم يتم تشغيل الشبكة العصبية ، والتي تتنبأ بعمق كل نقطة رئيسية في الوجه - إحداثيات Z ، باستخدام الإحداثيات الطبيعية (X ، Y). تم تدريب هذا النموذج على مجموعة بيانات AFLW2000.



علاوة على ذلك ، ترتبط هذه النقاط ببعضها البعض ، وتشكل قناعًا شبكيًا. يمكن أن يطلق عليه أيضًا القياسات الحيوية للوجه. تُستخدم أطوال أجزاء هذا القناع كإحدى طرق تحديد المشاعر. الفكرة هي أن كل قطعة مستقيمة لها مكانها الخاص في متجه القطعة المستقيمة وبعضها يعتمد على العاطفة. ولكل عاطفة ، من الناحية النظرية ، عدد محدود من هذه النواقل. تم تأكيد هذه الفرضية في سياق التجارب. لتدريب مثل هذا النموذج ، تم استخدام مجموعات البيانات التالية: Cohn-Kanade + و JAFFE و RAF-DB.



في موازاة ذلك ، تتعلم شبكة أخرى تصنيف المشاعر من خلال الصورة نفسها. يتم قطع صور الوجه من المستطيلات الموجودة في Dlib. تم تحويلها إلى قناة واحدة بالأبيض والأسود وضغطها إلى 48 × 48. لتدريب هذا النموذج ، تم استخدام نفس مجموعات البيانات المستخدمة في نموذج القياسات الحيوية. ومع ذلك ، تم استخدام مجموعة بيانات FER2013 بشكل إضافي.



في الختام ، تدخل الشبكة العصبية الثالثة حيز التشغيل ، حيث تجمع بنيتها بين شبكتين سابقتين مجمدة ومسبقة التدريب مع طبقة مدربة. تتجاوز هذه الشبكات أيضًا الطبقات المتصلة بالكامل الأخيرة. بدلاً من "متجه الاحتمالات" المتوقع الذي يمكن من خلاله تحديد الفئة المستهدفة ، يتم الآن إرجاع المزيد من "ميزات المستوى المنخفض". ويتم تدريب الطبقة الموحدة على تفسير هذه المعلومات إلى الفئة المستهدفة.



ومن بين "الحلول المماثلة" ما يلي: EmoPy و DLP-CNN (RAF-DB) و FER2013 و EmotioNet. ومع ذلك ، من الصعب إجراء مقارنات لأن تم تدريبهم على بيانات مختلفة. 



كود على جيثب



خاتمة



في الختام ، أود أن أقول إن الدورة التجريبية أثبتت قيمتها ، وفي العام الدراسي 2020/21 ، يتم تدريس البرنامج بالفعل في 23 جامعة شريكة لأكاديمية Samsung لتكنولوجيا المعلومات في روسيا وكازاخستان. يمكن رؤية القائمة الكاملة هنا... هذا العام ، تدرس مجموعة من الأساتذة والبكالوريوس معنا بالفعل (حتى أن هناك درجة دكتوراه واحدة كاملة في المجموعة!) وحتى الآن ، في الجزء الأكبر ، ينخر جرانيت العلم بنجاح. لم يتم بعد العثور على أفكار لمشروع فردي ، لكن الطلاب مليئون بالتفاؤل. بالطبع ، في المسابقة القادمة للمشاريع الفردية ، ستزيد المنافسة عشرة أضعاف ، لكننا نأمل أن نستمر في الحصول على درجات عالية لإنجازات طلابنا. والأهم من ذلك ، أنا متأكد من أن المعرفة والخبرة المكتسبة ستكون ذات فائدة كبيرة لخريجينا في تطويرهم في مجال تكنولوجيا المعلومات.



2020 روستوف اون دون. SFedU ، أكاديمية سامسونج لتكنولوجيا المعلومات.





ديمتري ياتسينكو

محاضر أول في قسم تكنولوجيا المعلومات والقياس ، كلية التقنيات العالية ، الجامعة الفيدرالية الجنوبية ،

محاضر في Samsung IT School ،

محاضر في مسار AI IT في أكاديمية Samsung. 



All Articles