"غروك 4" يتفوق على "كلاود" و"ديب سيك" في ماراثون الذكاء الاصطناعى

تفوق نموذج الذكاء الاصطناعي لروبوت الدردشة "غروك 4"، الذي أطلقته شركة "xAI" في وقت سابق من يوليو الجاري، على منافسين مثل "ديب سيك" الصيني و"كلاود" في تصنيفات نماذج الذكاء الاصطناعي التوليدي.

وجاء تفوق "غروك 4" على "LMArena"، هي منصة تصنيف لنماذج الذكاء الاصطناعي التوليدي. ومع ذلك، فإن هذا النوع من التصنيفات لا يأخذ في الاعتبار المخاطر المحتملة المتعلقة بالسلامة.

وعادةً ما يتم تقييم نماذج الذكاء الاصطناعي الجديدة بناءً على مجموعة متنوعة من المقاييس، بما في ذلك قدرتها على حل المسائل الرياضية، والإجابة على الأسئلة النصية، وكتابة الشيفرات البرمجية، بحسب تقرير لموقع "Mashable" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business".

وتستخدم شركات الذكاء الاصطناعي الكبرى مجموعة متنوعة من التقييمات الموحدة لقياس فعالية نماذجها، مثل "Humanity's Last Exam"، وهو اختبار مكون من 2500 سؤال مصمم لتقييم أداء الذكاء الاصطناعي.

وعادةً، عندما تُصدر شركة مثل "أنثروبيك" أو "OpenAI" نموذجًا جديدًا، فإنه يُظهر تحسنًا في نتائج هذه الاختبارات مقارنة بسابقه. وليس غريبًا أن يتفوق "غروك 4" على "غروك 3" في بعض المقاييس الرئيسية، ولكنه يواجه أيضًا تحديًا في كسب قبول الرأي العام.

و"LMArena" هو موقع ويب يعتمد على المجتمع، ويتيح للمستخدمين اختبار نماذج الذكاء الاصطناعي جنبًا إلى جنب من خلال اختبارات عمياء. واتُهمت المنصة بالتحيز ضد النماذج المفتوحة المصدر، لكنها لا تزال واحدة من أشهر منصات تصنيف الذكاء الاصطناعي.

ووفقًا لاختبارات المنصة، جاء "غروك 4" -من شركة "xAI" التابعة لإيلون ماسك- ضمن المراكز الثلاثة الأولى في جميع الفئات التي اختُبر فيها باستثناء فئة واحدة.

وفي أحدث التصنيفات العامة للمنصة، حل "غروك 4" في المركز الثالث مناصفةً مع "GPT-4.5" من "OpenAI". أما نموذجا "o3" و"o4" فقد تعادلا في المركز الثاني. بينما جاء "Gemini 2.5 Pro" من "غوغل" المركز الأول.

وتقول "LMArena" إنها استخدمت النموذج "grok-4-0709"، وهو إصدار واجهة برمجة التطبيقات من "غروك 4" يستخدمه المطورون. وقد يُقلل هذا الأداء من إمكانات "غروك 4" الحقيقية، وفقًا لموقع "Bleeping Computer".

مع ذلك، يبلغ بعض مستخدمي "غروك 4" عن مشكلات أمنية كبيرة.

مشكلات أمنية

بينما اختبر بعض المستخدمين قدرات "غروك 4"، أراد آخرون معرفة ما إذا كان يتمتع بآليات أمان مقبولة. وتُروّج "XAI" لغروك باعتباره يقدم "إجابات غير منقحة"، إلا أن بعض المستخدمين أفادوا بتلقيهم ردودًا مزعجة للغاية من النموذج.

وقرر أحد مستخدمي منصة إكس اختبار "غروك" من منظور السلامة، وخلص في مقال إلى أن "غروك 4 من xAI لا يمتلك حواجز أمان فعالة".

واختبر المستخدم روبوت الدردشة طالبًا المساعدة في صنع غاز أعصاب يُسمى "تابون"، وكانت المفاجأة أن "غروك 4" قدم إجابة مفصلة حول كيفية تصنيعه المزعوم.

وللتوضيح، فإن تصنيع "تابون" ليس خطيرًا فحسب، بل غير قانوني تمامًا. ولدى روبوتات الدردشة الشهيرة الأخرى من "OpenAI" و"أنثروبيك" حواجز أمان محددة لتجنب مناقشة موضوعات تتعلق بالأسلحة الكيميائية والبيولوجية والإشعاعية والنووية.

تدرك "xAI" هذه المشكلات، وقامت منذ ذلك الحين بتحديث "غروك" للتعامل مع "الردود الإشكالية".