تطورت نماذج الذكاء الاصطناعي بصورة مذهلة، كما بدأت العديد من الشركات تتسابق في إطلاق نماذج ذكاء اصطناعي خاصة بها، لذلك من الضروري العمل على تطوير برامج اختبار لتقييم أداء النماذج المختلفة، ومواكبة التقدم التكنولوجي الفائق في مجال الذكاء الاصطناعي.
وكشفت مؤسسة آرك برايز عن تصميم اختبار فائق. مخصص لتقييم نماذج الذكاء الاصطناعي وهو Arc-Agi 2 والذي تمكن من تقديم تقرير مفصل عن قدرات نماذج الذكاء الاصطناعي المتواجدة على الساحة التكنولوجية حالياً.
وتمكنت نماذج الذكاء الاصطناعي الاستدلالية o1-pro الصادر عن شركة أوبن إيه آي بالإضافة إلى نموذج R1 الصادر عن شركة الذكاء الاصطناعي الرائدة ديب سيك، من تحقيق نتائج تتراوح بين نسبة 1% ونسبة 1.3% وهى نماذج ذكاء اصطناعي فائقة قائمة على النماذج الاستدلالية.
كما حققت نماذج الذكاء الاصطناعي الأقوى في الساحة نتائج 1% ومن هذه النماذج GPT 4.5 و نموذج Claude 3.7 Sonnet وهى نماذج غير قائمة على الاستدلال.
Arc-Agi
وأعلنت مؤسسة آرك برايز " عن تصميم إختبار Arc-Agi 2، والذي صمم على مرحلتين خصيصاً لتقييم أداء نماذج الذكاء الاصطناعي، وتقديم تقرير مفصل عن انقطاع قدرات نماذج الذكاء الاصطناعي المختلفة على تحسين أدائها، ومعرفة مدى قدرة هذه النماذج على التعلم وتعزيز قدراتها، بعيداً عن البيانات التي تم تدريب النماذج من خلالها، من أجل قياس مستوى التعلم الآلي وقياس قدرة الروبوت التطويرية.
كما يهدف الاختبار إلى مقارنة أداء النماذج القائمة على الاستدلال والنماذج استدلالية وتقييم الأداء البشري، ومقارنة نتائج الذكاء الاصطناعي مع نتائج البشر.