التعلم المعزز والتحليل الإرشادي على مفاتيح تبديل مركز البيانات: المتطلبات الأساسية والفوائد

قبل مؤتمر رحلة الذكاء الاصطناعي ، الذي تدعمه Huawei كشريك فخري والذي سيتحدث فيه العديد من المتحدثين ، قررنا مشاركة المعلومات الأولية حول تطوراتنا ، وعلى وجه الخصوص حول كيفية استخدام الذكاء الاصطناعي في شبكات مراكز البيانات الذكية. وفي الوقت نفسه ، اشرح سبب عدم كفاية التقنيات الراسخة لبناء شبكات مراكز بيانات حديثة ونحتاج إلى "مساعدة ودية" من الذكاء الاصطناعي.







ما يحدث في مجال الشبكات المشروط ضياع



على مر السنين ، عندما شهدت وسائط نقل البيانات تطورًا سريعًا ، تمكن المهندسون من مواجهة العديد من الظواهر التي تعيق التنفيذ الناجح لشبكات التخزين ومجموعات الحوسبة عالية الأداء على Ethernet: الخسائر ، وتسليم المعلومات غير المضمون ، والمآزق ، والتدفقات الدقيقة وغيرها من الأشياء غير السارة.



نتيجة لذلك ، تم اعتبار بناء شبكة مرجعية مخصصة لسيناريو محدد أمرًا صحيحًا:



  • IB لمجموعات الحوسبة عالية الحمل ؛
  • FC لشبكة التخزين الكلاسيكية ؛
  • إيثرنت لمهام الخدمة.


بدت محاولات تحقيق التنوع مثل الرسم التوضيحي.







بالنسبة لبعض المهام ، يمكن أن تتطابق النواقل (على غرار تلك الموجودة في البجعة وجراد البحر) ، وتم تحقيق التنوع الظرفية ، وإن كان بكفاءة أقل مما كانت عليه عند اختيار سيناريو عالي التخصص.



اليوم ، ترى Huawei المستقبل في المصانع المتقاربة متعددة المهام وتقدم لعملائها حل AI Fabric المصمم ، من ناحية ، لسيناريوهات زيادة أداء الشبكة دون خسارة (تصل إلى 200 جيجابت في الثانية لكل منفذ خادم في عام 2020) ، من ناحية أخرى ، لزيادة أداء تطبيقات (الهجرة إلى RoCEv2).



وبالمناسبة، كان لدينا تفصيلية منفصلة آخر حول المكون الفني للنسيج AI .



ما يحتاج إلى تحسين



قبل الحديث عن الخوارزميات ، من المنطقي توضيح بالضبط ما هي مصممة لتحسينها. تؤدي شبكة



ECN الثابتة إلى حقيقة أنه مع زيادة عدد خوادم الإرسال مع مستلم واحد ، يظهر نمط مرور دون المستوى الأمثل (بعبارة ملطفة ، نحن نتعامل مع ما يسمى بنموذج متعدد إلى واحد incast).







في Ethernet التقليدية ، يتعين علينا موازنة احتمالات الخسارة يدويًا على الشبكة والأداء الضعيف للشبكة نفسها.







سنرى نفس المتطلبات الأساسية أيضًا عند استخدام حزمة PFC / ECN في حالة التنفيذ بدون ضبط مستمر (انظر الشكل أدناه).







لحل المشاكل الموصوفة ، نستخدم خوارزمية AI ECN ، والتي يتمثل جوهرها في تغيير عتبات ECN في الوقت المناسب. كيف يبدو موضح في الرسم البياني أدناه.







في السابق ، عندما استخدمنا مجموعة شرائح Broadcom + Ascend 310 AI ، كان لدينا عدد محدود من الخيارات لضبط هذه المعلمات.

يمكننا أن نطلق على مثل هذا المتغير Software AI ECN بشكل مشروط ، حيث أن المنطق يتم على شريحة منفصلة و "مسكوب" بالفعل في مجموعة شرائح تجارية.
تتمتع الموديلات المجهزة بمجموعة شرائح Huawei P5 "بقدرات ذكاء اصطناعي" أوسع بكثير (خاصة في الإصدار الأخير) ، نظرًا لحقيقة أنها تنفذ جزءًا كبيرًا من الوظائف اللازمة لذلك.







كيف نستخدم الخوارزميات



باستخدام Ascend 310 (أو الوحدة النمطية المضمنة في P-card) ، نبدأ في تحليل حركة المرور ومقارنتها بمعيار للتطبيقات المعروفة.







في حالة التطبيقات المعروفة ، يتم تحسين مقاييس حركة المرور بسرعة كبيرة ؛ وفي حالة التطبيقات غير المعروفة ، يتم اتخاذ الخطوة التالية.







النقاط الرئيسية:



  1. يتم تنفيذ التعلم المعزز لـ DDQN والاستكشاف وتراكم أعداد كبيرة من التكوينات الأساسية واستكشاف أفضل استراتيجية للامتثال لـ ECN.
  2. يحدد مصنف CNN السيناريوهات ويحدد ما إذا كان حد DDQN الموصى به يمكن الاعتماد عليه.
  3. إذا كانت عتبة DDQN الموصى بها غير موثوقة ، يتم استخدام طريقة إرشادية لتصحيحها للتأكد من أن الحل معمم.


يتيح لك هذا الأسلوب ضبط آليات العمل مع التطبيقات غير المعروفة ، وإذا كنت تريد ذلك حقًا ، فيمكنك تعيين نموذج لتطبيقك باستخدام Northbound API إلى نظام إدارة التبديل.







النقاط الرئيسية:



  1. يقوم DDQN بتجميع عدد كبير من عينات ذاكرة التكوين الأساسي ويفحص بعمق حالة الشبكة ومنطق تسوية التكوين الأساسي للتعرف على السياسات.
  2. يحدد مصنف الشبكة العصبية CNN السيناريوهات لتجنب المخاطر التي يمكن أن تنشأ عندما يوصى بتكوينات ECN غير موثوقة في سيناريوهات غير معروفة.


ماذا نحصل



بعد هذه الدورة من التكيف وتغيير عتبات وإعدادات الشبكة الإضافية ، يصبح من الممكن التخلص من عدة أنواع من المشكلات في وقت واحد.



  • مشكلات الأداء: انخفاض النطاق الترددي ، زمن الوصول الطويل ، فقدان الحزمة ، عدم الاستقرار.

  • مشكلات PFC: PFC Deadlock و HOL و Storms وما إلى ذلك تسبب تقنية PFC العديد من المشكلات على مستوى النظام.

  • تحديات تطبيق RDMA: الذكاء الاصطناعي / الحوسبة عالية الأداء والتخزين الموزع والتركيبات. تطبيقات RDMA حساسة لأداء الشبكة.



ملخص



في النهاية ، تساعدنا خوارزميات التعلم الآلي الإضافية في حل المشكلات التقليدية لبيئة شبكة Ethernet "غير المستجيبة". وبالتالي ، فإننا نقترب خطوة واحدة من نظام بيئي لخدمات الشبكة الشاملة والشفافة والمريحة - على عكس مجموعة من التقنيات والمنتجات المتباينة.



***



تستمر حلول Huawei في الظهور في مكتبتنا عبر الإنترنت . تضمين الموضوعات التي تم تناولها في هذا المنشور (على سبيل المثال ، قبل إنشاء حلول ذكاء اصطناعي كاملة الحجم لسيناريوهات مختلفة لمراكز البيانات "الذكية"). يمكنك العثور على قائمة بندواتنا عبر الإنترنت للأسابيع القادمة هنا .



All Articles