حواسيب أبحاث " AI" الخارقة ..التقنية الأكثر تقدماً لدى ميتا" 2- 2 "

Sunday 6 February 2022 03:54 - الأحد ٠٥ رجب ١٤٤٣

بقلم: كيفين لي ، وشوبو سينجوبتا

شركة ميتا

وقد أظهرت القياسات المبكرة للحواسيب الخارقة العاملة بالذكاء الاصطناعي (RSC)، مقارنةً بالبنية التحتية البحثية والإنتاجية القديمة لشركة "ميتا"، أنها تدير تدفقات عمل رؤية الحاسوب بـقدرة أسرع 20 مرة، كما تدير مكتبة NVIDIA Collective Communication Library (NCCL) أسرع بتسع مرات، وتدرب نماذج NLP كبيرة الحجم ثلاث مرات أسرع. وهذا يعني أن نموذجًا يحتوي على عشرات المليارات من المعاملات يمكنه إنهاء التدريب في ثلاثة أسابيع مقارنةً بتسعة أسابيع فيما مضى.

لا يتعلق تصميم وبناء شيء مثل الحواسيب الخارقة العاملة بالذكاء الاصطناعي(RSC) بالأداء وحده، بل بالأداء على أكبر نطاق، باستخدام أكثر التقنيات تقدمًا اليوم. وعند اكتمال بناء الحواسيب الخارقة العاملة بالذكاء الاصطناعي (RSC)، يقوم نسيج شبكة InfiniBand بتوصيل 16 ألف وحدة معالجة رسومات(GPUs) كنقاط نهاية، مما يجعلها واحدة من أكبر الأنسجة الشبكية حتى يومنا هذا. وبالإضافة إلى ذلك، قمنا بتصميم نظام التخزين المؤقت والتخزين الذي يمكن أن يخدم 16 تيرابايت في الثانية من بيانات التدريب. ونخطط لتوسيع نطاقه حتى 1 إكسا بايت.

ومن المهم أن تتسم تلك البنية التحتية بالموثوقية والاستقرار، حيث من المرجح أن تستمر بعض التجارب لأسابيع وتتطلب الآلاف من وحدات معالجة الرسومات. وأخيرًا، يجب أن تكون تجربة استخدام حواسيب الذكاء الاصطناعي(RSCs) بأكملها ملائمة للباحثين، حتى تتمكن فرقنا بسهولة من استكشاف مجموعة واسعة من نماذج الذكاء الاصطناعي.

وتضمن ذلك في جزء كبير منه، العمل مع عدد من الشركاء القدامى، وقد ساعد جميعهم في تصميم الجيل الأول من البنية التحتية لحواسيب الذكاء الاصطناعي في عام 2017. وقد عملت Penguin Computing شريكنا في الهندسة المعمارية وإدارة الخدمات مع فريق العمليات الخاص على انجاز التكامل بين الأجهزة لبدء لتشغيل تلك الكتلة الحاسوبية الضخمة، كما ساعدوا في إنشاء أجزاء رئيسية من مستويات التحكم. كما زودتنا Pure Storage بحل تخزين قوي وقابل للتطوير. وقد زودتنا NVIDIA بتقنيات حوسبة الذكاء الاصطناعي الخاصة بها. والتي تتميز بأنظمة متطورة ووحدات معالجة رسومات ونسيج InfiniBand ومجموعة مكونات البرامج الخاصة بالكتلة الحاسوبية مثل NCCL.

وقد تم إنجاز ذلك عن بعد خلال فترة الجائحة.

وعلى الرغم من ذلك، فقد كانت هناك تحديات أخرى غير متوقعة نشأت خلال تطوير حواسيب أبحاث الذكاء الاصطناعي وتحديداً انتشار جائحة كورونا. وقد بدأ ذلك، كمشروع يدار بالكامل عن بعد، حيث شرع الفريق في التنفيذ بدءاً من مشاركة المستندات البسيطة وحتى عملية تشغيل الكتلة الحاسوبية على مدار نحو عام ونصف كامل. كما تسببت الجائحة في فرض قيود على توريد الرقائق الإلكترونية مما أسفر عن حدوث مشكلات في سلسلة التوريد، جعلت من الصعب الحصول على متطلبات أساسية ومكونات أخرى من بينها، البصريات ووحدات معالجة الرسومات وحتى مواد البناء. والتي كان يتوجب نقلها جميعًا وفقًا لبروتوكولات الأمان الجديدة. ولبناء هذه الكتلة على نحو فعّال وبكفاءة، كان علينا تصميمها من البداية وإنشاء العديد من الاصطلاحات الجديدة تمامًا الخاصة بـ "ميتا" على طول الطريق وإعادة التفكير في الاصطلاحات السابقة. بالإضافة إلى كتابة قواعد جديدة حول تصميمات مراكز البيانات، من بينها التبريد والطاقة وتصميم الحوامل والكابلات والشبكات. وشمل ذلك إنشاء منظومة تحكم جديدة تمامًا، وذلك من بين اعتبارات مهمة أخرى. وكان علينا التأكد من أن جميع الفرق، من البناء والأجهزة إلى البرمجيات والذكاء الاصطناعي، كانت تعمل بخطى ثابتة وبالتنسيق مع شركائنا.

وإلى جانب العمل على النظام الأساسي، كانت هناك حاجة أيضًا إلى وجود حل تخزين قوي يمكن أن يخدم كميات من التيرابايت بعرض النطاق الترددي الخاص بنظام التخزين على مستوى إكسابايت. وبهدف خدمة احتياجات النطاق الترددي والسعة المتزايدة للتدريب على الذكاء الاصطناعي، قمنا ومن الألف إلى الياء، بتطوير خدمات تخزين ومتجر أبحاث الذكاء الاصطناعي (AIRStore). ولتحسين نماذج الذكاء الاصطناعي يستخدم AIRStore مرحلة إعداد بيانات جديدة تعالج مجموعة البيانات مسبقًا لاستخدامها في مرحلة التدريب. وبمجرد الانتهاء من مرحلة التحضير والتي تقام لمرة واحدة فقط، يمكن استخدام مجموعة البيانات المعدة لأغراض التدريب المتعددة حتى انتهاء صلاحيتها. ويعمل AIRStore أيضًا على تحسين عمليات نقل البيانات بحيث يتم تقليل حركة المرور العابرة للمناطق على مستوى العمود الفقري لمركز بيانات "ميتا".

كيف يمكن حماية البيانات في هذه الكتلة الضخمة من الحواسيب الخارقة لأبحاث الذكاء الاصطناعي (RSC)

لبناء نماذج ذكاء اصطناعي جديدة تفيد الأشخاص الذين يستفيدون من خدماتنا، سواء كان ذلك لاكتشاف المحتوى الضار أو إنشاء تجارب واقع افتراضي جديدة، فإننا بحاجة إلى تعليم النماذج باستخدام بيانات العالم الحقيقي الواردة من أنظمة الإنتاج لدينا. وقد تم تصميم الحواسيب الخارقة لأبحاث الذكاء الاصطناعي(RSC) من الألف إلى الياء مع مراعاة الخصوصية والأمان، بحيث يمكن لباحثي "ميتا" تدريب النماذج بأمان باستخدام البيانات المشفرة التي ينشئها المستخدمون. والتي لا يتم فك تشفيرها إلا قبل التدريب مباشرة. وعلى سبيل المثال، يتم عزل الكتلة الحاسوبية عن الإنترنت، مع عدم وجود اتصالات مباشرة واردة أو خارجية، حينها يمكن لحركة المرور أن تتدفق فقط من مراكز بيانات إنتاج "ميتا".

ولتلبية متطلبات الخصوصية والأمان، يتم تشفير مسار البيانات بالكامل بطريقة "من طرف إلى طرف" بين أنظمة التخزين لدينا وحتى وحدات معالجة الرسومات والتأكد من وجود الأدوات والعمليات اللازمة للتحقق من تلبية هذه المتطلبات في جميع الأوقات. وقبل استعادة البيانات إلى الكتلة الحاسوبية الضخمة، يجب أن تخضع لعملية مراجعة الخصوصية للتأكد من أنها مجهولة المصدر بشكل صحيح. يتم بعد ذلك تشفير البيانات قبل استخدامها لتدريب نماذج الذكاء الاصطناعي. ويتم حذف مفاتيح فك التشفير بانتظام لضمان عدم استمرار الوصول إلى البيانات القديمة. ونظرًا لأن البيانات لا يتم فك تشفيرها إلا عند نقطة نهاية واحدة في الذاكرة، فيتم حمايتها حتى في حالة حدوث خرق فعلي للمنشأة. وذلك أمر بعيد الاحتمال.

المرحلة الثانية وما يليها

وعلى الرغم من أن التطوير ما يزال مستمرًا ، فقد بدأ تشغيل الحواسيب الخارقة لأبحاث الذكاء الاصطناعي(RSC). وبمجرد الانتهاء من المرحلة الثانية من بناء تلك الكتلة الضخمة من الحواسيب الخارقة (RSC)، فإننا نعتقد أنه سيكون أسرع حاسوب فائق الذكاء الاصطناعي في العالم، حيث يعمل بأداء يصل إلى نحو 5 إكسافلوبس من الحوسبة المختلطة في الدقيقة. وخلال عام 2022، سنعمل على زيادة عدد وحدات معالجة الرسومات من 6080 إلى 16 ألفاً، مما سيزيد من أداء وقدرات تدريب الذكاء الاصطناعي بأكثر من مرتين ونصف. وسيتوسع نسيج InfiniBand لدعم 16 ألف منفذ في هيكل من طبقتين بدون زيادة في التحميل. وسيكون لنظام التخزين عرض نطاق مستهدف يبلغ 16 تيرابايت في الثانية وسعة على نطاق إكسابايت لتلبية الطلب المتزايد.

ونتوقع أن يمكنّنا هذا التغيير في والظائف والقدرة الحسابية، من إنشاء نماذج ذكاء اصطناعي أكثر دقة لخدماتنا الحالية، وكذلك صناعة تجارب جديدة تمامًا للمستخدم، خاصة في عالم "ميتافيرس" وستساعدنا استثماراتنا طويلة الأجل في تعلم الآلة وفق القدرات الذاتية، في بناء الجيل التالي من البنية التحتية للذكاء الاصطناعي مع تلك الحواسيب الخارقة (RSC) وإنشاء التقنيات التأسيسية التي ستعمل على تعزيز عالم "ميتافيرس" وكذلك تعزيز مجتمع الذكاء الاصطناعي الأوسع.