ابتكار اختبارًا صعبًا لقياس الذكاء العام لنماذج الذكاء الاصطناعي الرائدة.

  • أعلنت مؤسسة "Arc Prize"، وهي منظمة غير ربحية شارك في تأسيسها الباحث البارز في مجال الذكاء الاصطناعي فرانسوا شوليت، ، أنها ابتكرت اختبارًا جديدًا وصعبًا لقياس الذكاء العام لنماذج الذكاء الاصطناعي الرائدة.

    وحتى الآن، تفوق الاختبار الجديد، المسمى "ARC-AGI-2"، على معظم نماذج الذكاء الاصطناعي.

    وحققت نماذج الذكاء الاصطناعي للتفكير مثل "o1-pro" من شركة أوبن إيه آي و"R1" من "ديب سيك" نسبة تتراوح بين 1% و1.3% في اختبار "ARC-AGI-2"، بحسب تقرير لموقع "TechCrunch" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business".

    بينما حققت نماذج قوية ليست للتفكير، مثل "GPT-4.5" و"Claude 3.7 Sonnet" و"Gemini 2.0 Flash"، نسبة حوالي 1%.

    تتكون اختبارات "ARC-AGI" من مسائل تشبه الألغاز، حيث يتعين على الذكاء الاصطناعي تحديد الأنماط المرئية من مجموعة من المربعات ذات الألوان المختلفة، وإنشاء شبكة "الإجابة" الصحيحة. صُممت هذه المسائل لإجبار الذكاء الاصطناعي على التكيف مع مسائل جديدة لم يرَها من قبل.

    أجرت "Arc Prize" اختبار "ARC-AGI-2" لأكثر من 400 شخص لتحديد مستوى الأداء البشري. وفي المتوسط، أجابت مجموعات من هؤلاء الأشخاص على 60% من أسئلة الاختبار بشكل صحيح، وهو ما يفوق بكثير درجات أيٍّ من نماذج الذكاء الاصطناعي.

    وفي منشور على منصة إكس (تويتر سابقًا)، زعم شوليت أن اختبار "ARC-AGI-2 " يُعد مقياسًا أفضل للذكاء الفعلي لنموذج الذكاء الاصطناعي من النسخة الأولى من الاختبار، "ARC-AGI-1".

    وتهدف اختبارات مؤسسة "Arc Prize" إلى تقييم قدرة نموذج الذكاء الاصطناعي على اكتساب مهارات جديدة بكفاءة خارج نطاق البيانات التي يتم تدريبه عليها.

    وأضاف شوليت أنه على عكس اختبار "ARC-AGI-1"، يمنع الاختبار الجديد نماذج الذكاء الاصطناعي من الاعتماد على قوة الحوسبة الهائلة لإيجاد حلول. وكان شوليت قد أقر سابقًا بأن هذا عيب رئيسي في اختبار "ARC-AGI-1".

    ظلّ اختبار "ARC-AGI-1" دون أي هزيمة لمدة خمس سنوات تقريبًا حتى ديسمبر 2024، عندما أصدرت "أوبن إيه آي" نموذجها للتفكير المتقدم "o3"، الذي تفوّق على جميع نماذج الذكاء الاصطناعي الأخرى، وضاهى الأداء البشري في التقييم.

    ومع ذلك، فإنّ انتصار "o3" في "ARC-AGI-1" لم يدم كثيرًا. فنسخة نموذج "o3 " التي كانت أول من حقق أرقامًا جديدة في اختبار "ARC-AGI-1"، مسجلةً 75.7% في الاختبار، حصلت على 4% فقط في "ARC-AGI-2 " باستخدام قوة حوسبة بـ 200 دولار لكل مهمة.

    حمّل تطبيق Alamrakamy| عالم رقمي الآن