تطوير معياراً لاكتشاف كذب نماذج الذكاء الاصطناعي

  • مع تزايد الأدلة على أن نماذج الذكاء الاصطناعي قادرة على خداع مُنشئيها، طوّر باحثون من كل من "Center for AI Safety و"Scale AI" في سان فرانسيسكو، وسيلة لكشف كذب الذكاء الاصطناعي وهي الأولى من نوعها.

    وأصدر الباحثون الأسبوع الماضي معيار "Model Alignment between Statements and Knowledge" عُرف اختصارًا بـ"MASK"، الذي يحدد مدى سهولة خداع النموذج ليكذب عمدًا على المستخدمين، أو على "فضيلته الأخلاقية".

    يُعدّ التخطيط والخداع وتزييف التوافق، عندما يتظاهر نموذج الذكاء الاصطناعي عمدًا بتغيير قيمه تحت الضغط، من الطرق التي تُقوّض بها نماذج الذكاء الاصطناعي مُنشئيها، وقد تُشكّل تهديدات خطيرة للسلامة والأمن، بحسب تقرير لموقع "ZDNET" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business".

    وتُظهر الأبحاث أن نموذج "o1" من شركة أوبن إيه آي بارع بشكل خاص في التخطيط للحفاظ على سيطرته على نفسه، وقد أثبت نموذج "Claude 3 Opus" قدرته على تزييف التوافق.

    للتوضيح، عرّف الباحثون الكذب بأنه "(1) الإدلاء بعبارة يُعروف (أو يُعتقد) أنها خاطئة، و(2) تعمد جعل المُتلقي يقبل العبارة على أنها صحيح"، على عكس الاستجابات الخاطئة الأخرى، مثل الهلوسة.

    وقال الباحثون إن قطاع الذكاء الاصطناعي لم يمتلك حتى الآن منهجية كافية لتقييم الصدق في نماذج الذكاء الاصطناعي، حيث أن العديد من المعايير التي تدعي قياس الصدق تقيس في الواقع الدقة.

     

    حمّل تطبيق Alamrakamy| عالم رقمي الآن