هواوي DCN. شبكات مراكز البيانات القائمة على النوايا: حلول إدارة الشبكات الجديدة

يؤدي التعقيد المتزايد باستمرار للبنية التحتية للشبكة لمراكز البيانات الحديثة إلى زيادة الانهيار في عدد المعلمات التي يجب التحكم فيها لتحقيق الأداء الأمثل والموثوقية. تم تصميم حلول الشبكة المبنية على النوايا من Huawei لرفع وعي المسؤولين حول عمليات الشبكة والمساعدة في التعرف على المشكلات الناشئة بسرعة: فهي مصممة لإنشاء شبكات ذاتية التنظيم والإدارة الذاتية تلبي مبدأ "من الأتمتة إلى الاستقلالية".







اليوم ، سنخبرك ، دون الرجوع إلى نماذج معينة من معدات الشبكة ، كيف يتجسد مبدأ "من الأتمتة إلى الاستقلالية" في القدرات الجديدة لمنتج FabricInsight. في الواقع ، في السنوات الأخيرة ، لم يتغير تكوينها فحسب ، بل ظهرت أيضًا سيناريوهات جديدة عديدة تجعل من الممكن تحديد الحالة الحالية للشبكة والتنبؤ بالمشاكل المحتملة فيها.







أربع مراحل لتطوير مركز البيانات



عند تحديد متجه تطوير شبكات مراكز البيانات ، من السهل أن نرى كيف سقطت هياكل مراكز البيانات التقليدية تدريجيًا تحت هجمة أنظمة المحاكاة الافتراضية ، ثم نجت من الهجرة الهائلة للموارد والخدمات إلى السحابة ، واقترب الآن من التقديم الواسع لأنظمة الذكاء الاصطناعي والواجهات عالية السرعة التي تبلغ 400 جيجابايت / ثانية. هناك حاجة لإمكانيات الذكاء الاصطناعي لبناء شبكات إيثرنت غير ضائعة وإنشاء تطبيقات محصنة تمامًا من زمن الوصول.



مجال آخر لتطبيق الذكاء الاصطناعي هو تحليل مركز البيانات ومراقبته. علينا أن ننتقل من أيديولوجية تنطوي على مراقبة وظيفية محدودة لحالة بعض "الصناديق السوداء" إلى مفهوم الشبكات الشفافة تمامًا ، والتي يُعرف عنها كل شيء.







بصفتها وحدات شبكة البنية التحتية الرئيسية لبناء شبكات مراكز البيانات ، تقدم Huawei الآن خطًا من أربعة وثمانية وستة عشر فتحة CloudEngine 16800 مع وصلات صاعدة 400 جيجابت في الثانية ؛ من المقرر إطلاق سراحهم في العام الحالي. ومن بين المنتجات الجديدة أيضًا ، نلاحظ محولات CloudEngine 6881 و 6863 ToR المبنية على قاعدة العناصر الخاصة بنا بواجهات 10 و 25 جيجابت في الثانية ، على التوالي.







يوضح الرسم التوضيحي نماذج المحولات من خط CloudEngine 16800 مع بنية متعامدة كلاسيكية ، ومجهزة بنظام تبريد من الأمام إلى الخلف ، بالإضافة إلى بطاقات خط متوافقة مزودة بواجهات 10 و 40 و 100 جيجابت / ثانية.



من بين الوظائف الأساسية المهمة لـ CloudEngine 16800 ، نسلط الضوء على قدرته على العمل مع NSH (Network Service Header) ، والذي يسمح بتنفيذ التجزئة الدقيقة الموزعة عبر عدة محولات في مركز البيانات (العزل على مستوى الآلة الافتراضية) ، مما يوفر إمكانات واسعة للقياس عن بعد وتحليل حركة المرور على حافة الشبكة (ذكاء الحافة) ) باستخدام تقنيات الذكاء الاصطناعي القائمة على رقائق Huawei AI.



سيكون الطراز V1R19C10 ثوريًا حقًا. يجب تنفيذ العديد من الوظائف التي طال انتظارها ، بما في ذلك EVPN Multihoming بدون "وصلة مرور" في شكل M-LAG (تجميع ارتباط متعدد المحولات) استنادًا إلى النوعين الأول والرابع من المسارات في توجيه EVPN VXLAN.







العمارة المألوفة والإمكانيات الجديدة



يُظهر الرسم التخطيطي العمارة المتعامدة المألوفة للتبديل غير المعطل "المصنع" ذي الثلاث مستويات. تشمل مزاياها الأساسية الترتيب الأمثل للوحات "المصنع" وبطاقات الخطوط والموصلات ونظام النفخ على أساس مراوح متغيرة السرعة.







من المهم أن يكون بروتوكول BFD (اكتشاف إعادة التوجيه ثنائي الاتجاه) عبارة عن جهاز مطبق على نماذج المحولات الجديدة ومن الممكن تكوين VXLAN في مساحة عنوان IPv6. تظل البنية الأساسية كما هي وتعتمد على المعالج والمعالج المساعد وشريحة إعادة التوجيه. يظهر الرسم التخطيطي وظيفة كل من العقد. التغيير الرئيسي في عام 2020 هو الانتقال إلى شرائح Huawei الخاصة في المحولات الرئيسية ، والتي تتنافس بشكل كامل مع نظيراتها من Broadcom.







يسمح دعم عمليات Network Service Header للمفاتيح الجديدة بتغيير مسارات حزم VXLAN الافتراضية وتمكين خدمات مثل جدران الحماية (FW) وأنظمة كشف التسلل (IDS) وموازنات التحميل (SLB) و NAT.







دعنا نعود بإيجاز إلى التجزئة الدقيقة المقسمة المذكورة مسبقًا. تتيح لك مفاتيح Huawei ToR الجديدة بمساعدة نفس NSH عزل أحمال العمل على مستوى أسماء الأجهزة الافتراضية. يمكن تجميع هذه الأجهزة بشكل أكبر على مستوى الشبكة الفرعية بناءً على أرقام المنافذ والبروتوكولات المتفوقة وما إلى ذلك ، وبالتالي تكوين مجموعات التطبيقات.







مجموعة كاملة من بيانات القياس عن بعد



يتم جمع المعلومات من الأجهزة في الوقت الفعلي باستخدام عدة بروتوكولات رئيسية. تتمثل مهمة ERSPAN + في جمع رؤوس TCP للتحليل التفصيلي اللاحق لتدفقات TCP في مركز البيانات. يتم استخراج البيانات الإضافية باستخدام بروتوكول gRPC وجدول التدفق. يتم جمع كل هذا مع Protobuf عبر UDP.







يتمثل الاتجاه الرئيسي لتطوير أدوات التشغيل والصيانة في Huawei في الانتقال من التحكم اليدوي أو شبه التلقائي في الشبكة إلى التحكم التلقائي بالكامل ، استنادًا إلى تقنيات الذكاء الاصطناعي. ينتج نظام القياس عن بُعد الشامل لموقع كبير إلى حد ما كميات هائلة من البيانات ، والتي لا يمكن تحليلها في وقت قصير إلا باستخدام الذكاء الاصطناعي. هذا مهم بشكل خاص في مراكز البيانات هذه ، حيث يكون الفشل والتوقف ببساطة غير مقبول.







تشمل التدابير الوقائية المصممة لمنع حدوث مشاكل مع الشبكة ، أولاً وقبل كل شيء ، مراقبة "صحة" الشبكة: مراقبة حمل القناة ، وتحديد أسباب فقدان الحزمة (على سبيل المثال ، البحث عن ارتباط مع الوقت من اليوم أو فترات تشغيل أحد التطبيقات) ، والكشف عن " الاختناقات (التنبؤ بالسعة) ، وما إلى ذلك. في



حالة استمرار ملاحظة المشكلات ، فإن المبدأ 1-3-5 الذي طرحته Huawei يساعد في تقليل وقت التشخيص والاسترداد: دقيقة للبحث ، وثلاث دقائق لتحديد الموقع ، وخمس دقائق للتخلص من المشكلة. من أجل الحفاظ على هذا الإطار ، تدعم منتجات Huawei قائمة دائمة التوسع من الأخطاء النموذجية التي يتم اكتشافها تلقائيًا.







موديل V100R019C10 لمراكز البيانات الصغيرة



أحد الابتكارات الرئيسية في V100R019C10 هو دعم التصور بناءً على بيانات القياس عن بُعد في جميع أنواع السيناريوهات. في الواقع ، نحن نتحدث عن عرض مرئي لأي تغييرات في الشبكة. بالإضافة إلى ذلك ، أصبح الجهاز قادرًا الآن على تحديد أكثر من 75 سببًا جذريًا لمشاكل معينة ويساعد في تحديد الإجراءات للقضاء عليها (إطلاق البرامج النصية ، إلخ).



كانت الأخبار المهمة ظهور الإصدار المستقل ، والذي يتضمن كلاً من iMaster NCE و FabricInsight ، وهو مخصص بشكل أساسي لمراكز البيانات الصغيرة التي لا تتطلب خوادم متعددة لإدارة الشبكة.







التغييرات في نظام الترخيص



لفهم الميزات الوظيفية لـ FabricInsight بشكل أفضل ، يجب توضيح التغييرات التي حدثت في نموذج الأعمال لتوزيع منتجات شبكة Huawei. إذا لم يصل عدد المفاتيح إلى مائة ، فسيتم تصنيف هذا الخيار كإصدار مستقل وينطوي على ترخيص N1. تم بالفعل تجميع مجموعة من ثلاثة خوادم أو أكثر مع نظام أساسي لتحليلات البيانات الضخمة. يوصى باستخدام الحل المتقدم ، الذي يتضمن عدة مئات من المفاتيح ، مع أدوات تحليل تدفقات الشبكة. تسمح جميع الخيارات الثلاثة بميزات FabricInsight بترخيص N1.







يتضمن أي ترخيص استخدام مجموعة كاملة من أدوات القياس عن بعد والسيناريوهات 1-3-5 ، باستثناء أدوات تحليل تدفق TCP المتاحة فقط في الحل المتقدم.







يبقى إخبارك عن تكوينات الخادم المصممة للحلول القياسية والمتقدمة. حاليًا ، لا تتوفر العقدة المستقلة (عقدة واحدة) إلا على خادم Taishan 200. تتطلب المجموعة ثلاثية العقد 16 مركزًا أو أكثر للحوسبة و 128 جيجابايت من ذاكرة الوصول العشوائي وما إلى ذلك (انظر الرسم البياني). يعتمد حجم قرص البيانات بشكل مباشر على المدة التي يجب أن يتم فيها تخزين الإحصائيات.







مراقبة KPI



دعنا نلقي نظرة فاحصة على مراقبة مؤشرات الأداء الرئيسية. لاستخدامه ، يكفي تعيين فاصل زمني وقيم عتبة محددة ، سيتم التحقق من تحقيقها بناءً على بيانات القياس عن بُعد المستلمة. هناك العديد من أنواع المقاييس المتاحة ، بما في ذلك:



  • استخدام وحدة المعالجة المركزية والذاكرة ؛
  • استخدام FIB / MAC ؛
  • استخدام الذاكرة الترابطية الثلاثية (TCAM) للرقاقة ؛
  • معلمات المنفذ
  • حجم المخزن المؤقت لقائمة الانتظار ؛
  • مقاييس نسيج AI المختلفة ؛
  • مستوى الإشارة ودرجة الحرارة والمعلمات الأخرى للوحدة الضوئية ؛
  • فقدان الحزمة.








الفحص الأولي



تعمل أداة التحقق المسبق أيضًا على بيانات القياس عن بُعد. يسمح لك ماسح التصوير المقطعي المحوسب بفهم ما إذا كانت بعض الأحداث غير المرغوب فيها قد حدثت على الشبكة. تتوافق بعض المقاييس مع مقاييس مراقبة مؤشرات الأداء الرئيسية لـ "المصنع" (تتعلق بشكل أساسي بالقدرة والأداء). يعتمد الباقي على نتائج تحليل المستوى الأعلى (VXLAN ، BGP ، إلخ) وتحليل التكوين. بعد بدء تشغيل جهاز التصوير المقطعي المحوسب ، يقوم بجمع المعلومات الضرورية وإنشاء تقرير شامل عن حالة الشبكة.







من الضروري إجراء مثل هذه الفحوصات بانتظام ، بعد تحديد الفترات الزمنية بينها مسبقًا. هذا يجعل من السهل تحديد الاتجاهات الناشئة في الشبكة في الوقت المناسب ، بما في ذلك التغييرات الدورية وغير الدورية. يتيح لك ذلك فهم ما يحدث بالضبط بشكل كامل وسريع. علاوة على ذلك ، يمكن اختيار أي معلمة ذات أهمية خاصة لرصد أكثر تفصيلاً.







مشاكل الجهاز



تتيح لك المراقبة تحديد مجموعة متنوعة من المشكلات التي تظهر على مستوى الجهاز. في هذه الحالة ، يكون هدف التحقق هو مفتاح التبديل ، 36 من معلمات التشغيل المسجلة التي تجعل من الممكن اكتشاف 29 نوعًا من الأخطاء.



يسرد الجدول الموجود في الرسم التخطيطي أنواع العيوب ؛ تبديل النماذج التي تمكن FabricInsight من اكتشاف المشكلة ؛ الوظائف المستخدمة بواسطة FabricInsight ؛ الإجراءات التلقائية التي يتم اتخاذها عند اكتشاف المشكلات (تحذيرات ، توصيات ، تشغيل البرنامج النصي).







لنفترض أن الجهاز يعاني من نقص في الموارد مما يؤدي إلى انخفاض مستوى الخدمة. تتيح لك البيانات من سجل النظام ، جنبًا إلى جنب مع بيانات القياس عن بُعد لموارد FIB ، تقييم الموقف بسرعة في وضع الفحص اليدوي.







ببساطة لا يمكن حدوث حلقة على مستوى الأجهزة ، لأن الجهاز لن يسمح بإدخال مثل هذا الخطأ في التكوين. ومع ذلك ، يمكن أن تحدث حلقة ، على سبيل المثال ، في المستوى الثاني (على مستوى الجهاز الظاهري) بسبب تبديل برنامج تم تكوينه بشكل غير صحيح ، كما في الرسم البياني أعلاه. باستخدام FabricInsight ، لا يمكنك اكتشاف مشكلة فحسب ، بل يمكنك أيضًا عزل القسم المطلوب من الشبكة للتخلص من تأثيرها على عمل "النسيج" بالكامل.







مشاكل في الشبكة



استنادًا إلى 18 مقياسًا متاحًا للتحليل ، تحدد FabricInsight 10 أنواعًا من مشكلات الشبكة. يوفر الرسم التخطيطي قائمة كاملة بها ، وكذلك - كما في حالة مشاكل الجهاز - نماذج التبديل التي تمكن FabricInsight من اكتشاف المشكلة والوظائف المستخدمة والإجراءات التلقائية المتاحة.







لنفترض أن تدهور الوحدة الضوئية أو عطلها يؤدي إلى تدهور في أدائها: يصبح الارتباط غير مستقر. تحدث هذه المواقف بشكل غير منتظم ويصعب التكاثر. قد يستغرق هذا وقتًا طويلاً للعثور على المشكلة. باستخدام FabricInsight ، يمكنك أن تلاحظ على الفور انخفاضًا في مستوى الإشارة أو تغيرًا في الجهد عبر الوحدة النمطية.







يمكن لتشخيصات شبكة FabricInsight أيضًا تحديد مشكلات المخزن المؤقت التي تحدث غالبًا في الأنظمة التي تحتوي على عدد كبير من الخوادم المخصصة لمعالجة البيانات الضخمة. يتحقق NMS (نظام إدارة الشبكة) التقليدي من المعلمات المتعلقة بالمخزن المؤقت كل خمس دقائق. يمكن لإمكانيات القياس عن بعد FabricInsight تقليل هذه الفواصل الزمنية إلى 100 مللي ثانية واكتشاف حتى أقصر الحوادث الدقيقة.







مشاكل على مستوى البروتوكول



هنا تستطيع FabricInsight تحديد ستة أنواع من المشاكل ، بما في ذلك التعارض بين محولين رئيسيين في M-LAG ؛ مشاكل تفاعل المحولات المجاورة ، إلخ. هذه الوظيفة متاحة عند استخدام المفاتيح V200R005C00 والأحدث.







ضع في اعتبارك تعارض المفاتيح الرئيسية. مع كل مزايا تقنية M-LAG ، في حالة انقطاع الارتباط وفشل شبكة نظير إلى نظير ، يظهر محوّلان رئيسيان في النظام. يمكن لـ FabricInsight الاستجابة بشكل استباقي لمثل هذا الموقف من خلال المراقبة المستمرة لحالة الارتباط النظير و DFS.







تراكب مشاكل الشبكة



يمكن تحديد سبعة أنواع من مشاكل الشبكة المتراكبة من خلال مراقبة عشرة مقاييس مختلفة. يمكن لـ FabricInsight التحقق من حالة ترخيص VXLAN والعثور على أخطاء التكوين واكتشاف أعطال الواجهة الفرعية وما إلى ذلك. تشبه خيارات الاستجابة تلك الموضحة سابقًا.







مشاكل الخدمة



يتم رصد سبعة مقاييس لتحديد ستة أنواع من مشاكل مستوى الخدمة. يمكن الكشف عن تضارب عناوين IP ، ومشاكل الاتصال ، وهجمات TCP SYN الفيضية ، وما إلى ذلك.يرجى ملاحظة أنه لدعم إمكانات FabricInsight هذه ، قد تحتاج إلى محلل تدفق TCP.



بالنظر بشكل أوسع إلى استكشاف الأخطاء وإصلاحها ، فإن FabricInsight هو أكثر من مجرد أداة تجميع للأجهزة ، ولكنه مكتبة قابلة للتوسيع من البرامج النصية التي تعالج مجموعة متنوعة من أنواع المشكلات.







من الأتمتة إلى الاستقلالية



كخلاصة ، دعنا نقول أن أيديولوجية الشبكة الموجهة بالنوايا تستند إلى نموذج استجابة من ثلاث مراحل ، والذي يتضمن جمع المعلومات وتحليلها باستخدام الذكاء الاصطناعي ومقترحات لتغيير حالة الشبكة ، بما في ذلك الوضع التلقائي.



***



نذكرك أن خبرائنا يستضيفون بانتظام ندوات عبر الإنترنت حول منتجات Huawei والتقنيات التي يستخدمونها. قائمة الندوات عبر الإنترنت للأسابيع القادمة متوفرة هنا .



All Articles