الذكاء الاصطناعي في شبكة مركز البيانات: تجربة هواوي

على خطى حديثي في ​​مؤتمر AI Journey في 4 ديسمبر ، أود أن أخبرك كيف يسمح لك التطبيق الصحيح لأنظمة الذكاء الاصطناعي في إدارة الشبكة ببناء مراكز بيانات حديثة تعتمد على حلول Huawei دون اختناقات ودون فقدان الحزمة. تتجلى فوائد هذه الحلول بشكل خاص عند استخدام وحدات تخزين فلاش بالكامل في مركز البيانات ، أو تدريب الشبكات العصبية ، أو إجراء حوسبة GPU عالية الأداء.











تحويل مركز البيانات



تتغير مراكز البيانات من الناحية المفاهيمية وتتغير بشكل كبير. أصبح هذا الاتجاه واسع الانتشار نسبيًا منذ حوالي عشر سنوات ، ومع ذلك ، على سبيل المثال ، في القطاع المصرفي ، بدأ قبل ذلك بكثير. بغض النظر عن المسار المختار ، فإن أهداف التحولات متشابهة إلى حد ما - توحيد الموارد وتوحيدها.



هذه هي الخطوة الأولى ، تليها مزيد من التحسين في كفاءة مركز البيانات من خلال الأتمتة والتنسيق والانتقال إلى وضع السحابة المختلطة. وأقصى حد للتحول يمكن تحقيقه اليوم هو إدخال أنظمة الذكاء الاصطناعي.







حلول هواوي لكل مرحلة من مراحل التحول



في كل مرحلة ، اعتمادًا على "نضج تقنية المعلومات" للعميل ، تقدم Huawei حلولها الخاصة المصممة لتوفير أفضل نتيجة ترقية دون مصاريف غير ضرورية. أود اليوم أن أتحدث بمزيد من التفصيل عن "الجليد على الكعكة" - أنظمة الذكاء الاصطناعي في مراكز البيانات الحديثة.







لرسم تشابه مع جسم الإنسان ، تعمل محولات شبكة مركز البيانات كنظام للدورة الدموية ، مما يوفر الاتصال بين المكونات المختلفة: عقد الحوسبة ، وأنظمة تخزين البيانات ، إلخ.



منذ بضع سنوات فقط ، أصبحت تقنية تخزين SSD متاحة على نطاق واسع ، واستمر أداء وحدة المعالجة المركزية في النمو. مع هذا ، لم تعد عُقد التخزين والحساب هي الأسباب الرئيسية لوقت الاستجابة. لكن شبكة مراكز البيانات ظلت لفترة طويلة في هيكل مراكز البيانات كنوع من "الأخ الأصغر".



لقد حاول المصنعون حل المشكلة بطرق مختلفة. اختار شخص ما تقنيات InfiniBand (IB) المرخصة لبناء شبكة . تبين أن الشبكة متخصصة وقادرة على حل المهام الضيقة فقط. يفضل شخص ما إنشاء مصانع شبكة باستخدام بروتوكولات القنوات الليفية(FC). كلا النهجين لهما حدود: إما أن عرض النطاق الترددي للشبكة كان متواضعًا نسبيًا ، أو أن التكلفة الإجمالية للحل كانت محدودة ، والتي تفاقمت بسبب الاعتماد على بائع واحد.



مرت شركتنا باستخدام التقنيات المفتوحة. تعتمد حلول Huawei على الإصدار الثاني من RoCE ، والذي تم توسيع قدراته من خلال استخدام خوارزميات مرخصة إضافية في محولاتنا. سمح لنا ذلك بتحسين قدرات الشبكات بجدية.







لماذا لا نرى المستقبل وراء حلول FC الكلاسيكية؟ النقطة المهمة هي أنهم يعملون على مبدأ تخصيص الائتمان الثابت ، والذي يتطلب تكوين نسيج الشبكة وفقًا لاحتياجات تطبيقاتك لفترة محدودة من الوقت.



اتخذت FC مؤخرًا خطوة إلى الأمام نحو شبكات التخزين المستقلة ، لكنها تواصل فرض قيود على الأداء. الآن الاتجاه السائد - الجيل السادس من التكنولوجيا ، الذي يسمح بتحقيق سرعة نقل 32 جيجابت / ثانية ، بدأ تنفيذ حلول 64 جيجابت / ثانية. في الوقت نفسه ، بمساعدة Ethernet ، اليوم ، باستخدام جداول الأولوية ، يمكننا الحصول على 100 و 200 وحتى 400 جيجابت / ثانية إلى الخادم.







تكتسب القيمة المضافة لشبكة مركز البيانات أهمية خاصة في عالم تكتسب فيه محركات الأقراص ذات الحالة الصلبة ذات الواجهات عالية السرعة حصة في السوق ، مما يؤدي إلى استبدال محركات الأقراص التقليدية. تلتزم Huawei بتمكين تخزين SSD للوصول إلى إمكاناته الكاملة.







شبكة مراكز بيانات الجيل القادم



مثال صغير على كيفية قيامنا بذلك. يوضح الرسم التخطيطي أحد أنظمة التخزين الخاصة بنا ، والمعروف بأنها الأسرع في العالم. تظهر هنا خوادمنا المستندة إلى x86 أو ARM ، والتي تقدم أداءً يلبي توقعات العملاء المتطلبين للغاية. في مراكز البيانات ، بناءً على هذه الحلول ، ننجح في تحقيق زمن انتقال من طرف إلى طرف لا يزيد عن 0.1 مللي ثانية. يساعدنا استخدام تقنيات التطبيق الجديدة في الحصول على هذه النتيجة.



كانت التقنيات الكلاسيكية المستخدمة في التخزين محدودة ، على وجه الخصوص ، بسبب الكمون المرتفع إلى حد ما الذي تسبب فيه ناقل SAS. أدى الانتقال إلى بروتوكولات جديدة مثل NVMe إلى تحسين هذه المعلمة بشكل كبير ، وفي نفس الوقت أصبحت الشبكة نفسها عاملاً مقيدًا في الأداء.







ضع في اعتبارك ، ضمن نفس المثال ، استخدام الشبكات ذات الخوارزميات المرخصة الإضافية. تعمل على تحسين زمن الانتقال من طرف إلى طرف ، وتزيد بشكل كبير من إنتاجية الشبكة ، وتزيد عمليات الإدخال / الإخراج لكل وحدة زمنية. يساعد هذا النهج على تجنب "الشراء المزدوج" ، وهو أمر ضروري أحيانًا لتحقيق معايير الأداء المطلوبة ، ويصل إجمالي المدخرات (من حيث التكلفة الإجمالية للملكية) عند إدخال شبكة جديدة إلى 18-40٪ ، اعتمادًا على المعدات المستخدمة.







ما هي هذه الخوارزميات الرائعة؟



جلبت التقنيات التقليدية معهم المشاكل المعتادة ، حيث أنها عملت مع عتبات ثابتة لقائمة الانتظار. تعني هذه العتبة وجود علاقة أساسية بين السرعة ووقت الاستجابة لجميع التطبيقات. لم يسمح وضع التحكم اليدوي بالتعديل الديناميكي لمعلمات الشبكة.



باستخدام شرائح تعلم الآلة الإضافية في المحولات ، علمنا الشبكة أن تعمل في وضع يسمح ببناء شبكات مركز بيانات ذكية دون فقدان الحزمة (أطلقنا عليها اسم iDCN ).







كيف يتم تحقيق التحسين الذكي؟ أولئك الذين يشاركون في الشبكات العصبية سيجدون بسهولة العناصر المألوفة وآليات التدريب / الاستدلال على الرسم التخطيطي. تجمع حلولنا بين النماذج المضمنة والقدرة على التعلم على شبكة معينة.







يجمع نظام الذكاء الاصطناعي قدرًا معينًا من المعرفة حول الشبكة ، والتي يتم تقريبها بعد ذلك واستخدامها في التكوين الديناميكي للشبكة. تستخدم الأجهزة التي تعتمد على حلول الأجهزة الخاصة بنا شريحة خاصة بالذكاء الاصطناعي. تستخدم النماذج المبنية على مجموعات شرائح مرخصة من الشركات المصنعة الأمريكية وحدة إضافية وناقل برامج.







حول النماذج المطبقة. نحن نستخدم نهجًا يعتمد على نموذج التعلم المعزز. يحلل النظام 100٪ من البيانات التي تمر عبر جهاز الشبكة ويحدد خط الأساس. على سبيل المثال ، إذا كنت تعرف النطاق الترددي والتأخيرات التي تعتبر بالغة الأهمية لتطبيق معين ، فليس من الصعب تحديد الأساس. مع وجود عدد كبير من التطبيقات ، من الممكن إجراء حسابات "متوسطة" وإجراء تعديلات في الوضع التلقائي ، مما يؤدي إلى تحسين الأداء بشكل ملحوظ.







يوضح الرسم التخطيطي العملية بمزيد من التفصيل. في بداية تحسين الشبكة ، نحسب قيم العتبة - الحد الأدنى والحد الأقصى. بعد ذلك تأتي الشبكة العصبية التلافيفية(سي إن إن). وبالتالي ، من الممكن معادلة النطاق الترددي ومعدلات الكمون لكل تطبيق ، وكذلك تحديد "وزنه" الإجمالي داخل خدمات الشبكة. باستخدام هذا النهج الطبقي ، نحصل على بعض الأفكار المثيرة للاهتمام حقًا.







عندما يكون التطبيق غير معروف ، يتم استخدام خوارزمية بحث إرشادية بالتزامن مع " آلة الحالة ". بمساعدتها ، نبدأ في التحرك عكس اتجاه عقارب الساعة على طول مخطط الكتلة الموضح أعلاه ، وتحديد قيم العتبة وبناء نموذج. إنها عملية تلقائية يمكن معالجتها حسب الحاجة. إذا لم يكن ذلك ضروريًا ، فمن الأسهل الاعتماد على المحول وخدماته.







من النظرية إلى التطبيق



من خلال تطبيق هذه الخوارزميات والعمل على مستوى الشبكة بأكملها ، وليس على مستوى شرائحها الفردية ، فإننا نحل جميع مشاكل الأداء الرئيسية. هناك بالفعل حالات مثيرة للاهتمام لتطبيق واستخدام هذه التقنيات في القطاع المصرفي. هذه الآليات مطلوبة أيضًا في صناعات أخرى ، على سبيل المثال ، بين مشغلي الاتصالات.







لنلقِ نظرة على نتائج الاختبارات المفتوحة. اختبر المختبر المستقل لمجموعة Tolly الحل الذي نقدمه وقارنه مع حلول Ethernet و IB من الشركات المصنعة الأخرى. أظهرت الاختبارات أن أداء منتجات Huawei يعادل أداء IB وأفضل بنسبة 27٪ من منتجات Ethernet للشركات المصنعة الكبرى الأخرى.







توضح شبكة مركز البيانات غير المفقودة أقصى قدر من الكفاءة في عدة سيناريوهات ، مثل:



  • تدريب الذكاء الاصطناعي ؛
  • تخزين مركزي
  • تخزين موزع
  • حوسبة GPU عالية الأداء.








في الختام ، سننظر في أحد سيناريوهات استخدام شبكة مركز بيانات ذكية. يستخدم العديد من العملاء أنظمة التخزين الموزعة (SDS). من خلال دمج أنظمة تخزين البرامج من جهات تصنيع مختلفة بمساعدة الحل الذي نقدمه ، يمكنك تحقيق أداء أعلى بنسبة 40٪ من دونه. هذا يعني أنه عندما تعرف مستوى الأداء المطلوب لـ SDS الخاص بك ، يمكن تحقيقه باستخدام خوادم أقل بنسبة 40٪.



***



بالمناسبة ، لا تنس ندواتنا العديدة عبر الإنترنت التي عقدت ليس فقط في الجزء الناطق بالروسية ، ولكن أيضًا على المستوى العالمي. قائمة الندوات عبر الإنترنت لشهر ديسمبر متاحة هنا .



All Articles