النماذج اللغوية الكبيرة وخروق البيانات

  •  

    بقلم : أحمد شاكورا

     

    نائب رئيس المجموعة للأسواق الناشئة بشركة «كلاوديرا»

     

    أصبحت ثورة النماذج اللغوية الكبيرة جزءاً من واقعنا، ولا شك أن النجاح الفوري لتطبيق «تشات جي.بي.تي» أفضل دليل على ذلك. وفقاً لمعلومات «يو.بي.إس»؛ وصل عدد المستخدمين الفاعلين لروبوت المحادثة الذي يعمل بواسطة الذكاء الاصطناعي مفتوح الاستخدام إلى قرابة 100 مليون مستخدم شهرياً خلال شهرين فقط من تاريخ الإطلاق، ما يجعله أسرع تطبيقات المستهلكين انتشاراً في التاريخ، وبأخذ هذا السيناريو في الاعتبار، فقد أصبح من الضروري محاولة التفكير في كيفية تبني المؤسسات العامة والشركات الخاصة للنماذج اللغوية الكبيرة، وقبل كل ذلك كيف يمكن لمثل هذه النماذج تغيير وجه القطاعات المختلفة وطريقة أدائنا لأعمالنا.

    وبوضع مثل هذه التطورات في الاعتبار، فعلى الشركات أن تضمن أن النتائج التي تحصل عليها من هذه البرامج مبنية بالفعل على بياناتها، وذلك لتجنب الحصول على نتيجة غريبة، نتيجة لعدم كفاية المعلومات أو استخدام بيانات غير صحيحة من الأساس. فضلاً عن ذلك، على الشركات التأكد من أن نتائج النماذج اللغوية الكبيرة لا تنتهك لوائح تنظيم البيانات أو الملكية الفكرية.

    تلعب خصوصية البيانات دوراً شديد الأهمية لجميع الشركات، ووفقاً لبحث أجرته شركة «كلاوديرا»، فإن 58% من المؤسسات في أوروبا والشرق الأوسط وإفريقيا مترددة في اتخاذ خطوة الانتقال إلى السحابة بسبب المخاوف المتعلقة بالأمن السيبراني، و49% منها مترددة بسبب اعتبارات قواعد حوكمة البيانات والامتثال للوائح التنظيمية. وفي ظل التطوّر المستمر وظهور العديد من التقنيات، أصبح من الضروري حماية البيانات الشخصية للعملاء والشركات نفسها. تعد تطبيقات برمجيات خدمات الذكاء الاصطناعي التوليدية مثل «تشات جي.بي.تي» و«غوغل بارد» أمثلة شديدة الوضوح للتقدم التقني الذي يُعرّض الأفراد والمؤسسات لمخاطر متعلقة بالخصوصية. يمكن لتطبيقات الأطراف الثالثة هذه أن تحفظ البيانات الحساسة للشركات وتعالجها، ما يعرضها للضرر في حالة حدوث أي خروق للبيانات أو وصول غير مصرح به.

    تواجه النماذج اللغوية الكبيرة تحدياً كبيراً في الإجابة عن أسئلة متخصصة حول مؤسسة ما. تعتمد مثل هذه النماذج على كميات ضخمة من النصوص المكتوبة المتاحة على الإنترنت، بما يغطي نطاقاً واسعاً من الموضوعات والتخصصات. وعلى الرغم من ذلك، ففي حالة طرح سؤال محدد بخصوص شركة ما، فإن ما ستحصل عليه سيكون عبارة عن محتوى غير منطقي أو مجرد كلمة بدون سياق لا تلبّي اهتمام السائل في الأساس.

    وتشير هذه النتائج غير المنطقية إلى ممارسة غير مرغوب فيها تلجأ إليها هذه النماذج اللغوية، وهي توليد معلومات وهمية مكتوبة بطريقة واقعية، ما يسبب بدوره العديد من التحديات لمعرفة ما إذا كانت هذه المعلومات صادقة أم لا. وكما يمكن الاستنتاج من الاسم، فإن الإجابات خارج السياق تشير إلى البيانات المقدمة بواسطة النماذج اللغوية الكبيرة، لكن ينقصها أن تتماشى مع السؤال المطروح بخصوص موقف محدد. ستحصل في هذه الحالة على إجابة موضوعية ولكنها خارج السياق. وبالطبع فإن مثل هذه المعلومات المغلوطة والإجابات المبهمة والمتضاربة لا يمكن القبول بها في عالم الأعمال. أما في ما يتعلق باستخدامات الشركات، فإن نجاح الذكاء الاصطناعي التوليدي والنماذج اللغوية الكبيرة يعتمد في الأساس على جودة البيانات المستخدمة في التدريب ومدى الثقة بها.

    بالعودة مرة أخرى إلى صلب الموضوع، كيف يمكن التعامل مع النماذج اللغوية الكبيرة داخل المؤسسات مع التغلب على العوائق السابق ذكرها؟ يكمن مفتاح النجاح في القدرة على معرفة جيل النموذج اللغوي المستخدم ومدى جودة البيانات المستخدمة لتدريبه ومصدر هذه البيانات. تعمل الشركات على تسهيل عمليات تطوير الذكاء الاصطناعي التوليدي داخل المؤسسات، بفضل روبوت دردشة النموذج اللغوي الجديد المدعوم ببيانات الشركات. يشير بحث أجرته «كورسيرا» بالتعاون مع «يو.جوف» إلى أن 83% من الشركات في دولة الإمارات مهيأة بالفعل لاستخدام الذكاء الاصطناعي التوليدي في عملياتها اليومية. في حين أن أدوات الذكاء الاصطناعي المتاحة حالياً مجاناً قد تكون جذابة للشركات، فإن تطوير تجارب تفاعلية مخصصة للشركات يستلزم استخدام البيانات الخاصة المملوكة لها ومشاركتها مع مقدمي الخدمات الخارجيين. وبفضل هذا الحل التقني، يمكن للشركات بناء تطبيقات الذكاء الاصطناعي الخاصة بها باختيار النموذج اللغوي الكبير مفتوح المصدر الذي يناسب تفضيلات الشركة، ومن ثم استخدام البيانات الخاصة مع استضافة كل شيء داخل مواقع الشركة ذاتها. يعود هذا بالنفع على علماء البيانات وخبراء تعلّم الآلة والمطورين ووحدات الأعمال، ما يعني بالفعل إتاحة الذكاء الاصطناعي للجميع.

    يعالج هذا النموذج من الذكاء الاصطناعي التوليدي الاحتياجات الحالية للمؤسسات الراغبة في بناء نسخة خاصة بها من «جي.بي.تي» والنماذج الضرورية داخل مواقعها، بدلاً من تدريب البيانات عبر إضافة واجهات برمجة التطبيقات العامة. وبهذه الطريقة، يمكن للشركات تطوير نماذج مدعومة بأي نموذج لغوي كبير مفتوح المصدر يعمل بواسطة البيانات المملوكة للشركة داخل أنظمتها دون مشاركة للبيانات مع العالم الخارجي. يمكن الوصول إلى تعلّم الآلة التطبيقي أو ما يعرف بالنماذج الأولية لتعلّم الآلة التطبيقي على منصة البيانات السحابية العامة والخاصة.

    خلاصة القول، إن سوق الذكاء الاصطناعي يتغيّر سريعاً. ومع ذلك، فإن البيانات هي القاسم المشترك في هذه الجهود، وستظل البيانات هي مصدر النجاح للنماذج اللغوية الكبيرة ونماذج الذكاء الاصطناعي. ولذلك على الشركات الراغبة في الانضمام إلى هذه الموجة أن تبدأ قبل أي شيء في تأمين وجود بيانات عالية الجودة لأعمالها.

     



    حمّل تطبيق Alamrakamy| عالم رقمي الآن