أثارت ورقة بحثية حديثة صادرة عن OpenAI تساؤلات حول الأسباب العميقة لاستمرار الهلوسات في نماذج الذكاء الاصطناعي مثل GPT-5، رغم التطور الكبير في تقنيات التدريب.

ووفقًا لما نشره موقع تك كرانش، تشير الدراسة إلى أن المشكلة لا تعود فقط إلى طبيعة البيانات المستخدمة، بل أيضًا إلى آليات التقييم التي تمنح حوافز خاطئة للنماذج.

تعريف الهلوسة في الذكاء الاصطناعي

تُعرّف الهلوسة بأنها مخرجات تبدو منطقية لكنها خاطئة تمامًا، وبالرغم من التحسينات المستمرة، تعترف OpenAI بأن الهلوسة تمثل "تحديًا جوهريًا" يصعب التخلص منه بشكل كامل، فخلال الاختبارات، عندما طُلب من أحد روبوتات الدردشة معلومات عن عنوان أطروحة دكتوراه لأحد الباحثين أو حتى تاريخ ميلاده، جاءت الإجابات مختلفة وخاطئة في كل مرة.

التدريب المسبق والحقائق منخفضة التكرار

يوضح الباحثون أن السبب يعود جزئيًا إلى عملية التدريب المسبق التي تركز على التنبؤ بالكلمة التالية دون تصنيف المخرجات بين صحيحة وخاطئة. وبالتالي، بينما تتلاشى الأخطاء في التهجئة أو القواعد مع توسع البيانات، تظل الحقائق النادرة – مثل تواريخ الميلاد أو تفاصيل شخصية – عرضة للخطأ والاختلاق.

أين تكمن المشكلة الحقيقية؟

ترى الورقة أن آليات التقييم أكثر خطورة من التدريب نفسه، إذ تُشبه نظام الامتحانات متعددة الاختيارات الذي يشجع الطالب على التخمين بدلاً من اختيار "لا أعرف، عندما تُقيّم النماذج فقط على أساس دقتها، فإنها تتعلم "المجازفة" بالتخمين حتى وإن كان خاطئًا.

دراسة جديدة تكشف السبب الخفي وراء هلوسات الذكاء الاصطناعي
play icon

مقترح لتغيير نظام التقييم

تقترح OpenAI أن تُصمم الاختبارات بحيث تعاقب الثقة الزائفة أكثر من مكافأة التخمين المحظوظ، وأن تُمنح نماذج اللغة درجات جزئية عند التعبير عن عدم اليقين، ويشبه ذلك نظام SAT الذي يضع علامات سالبة على الإجابات الخاطئة لمنع التخمين العشوائي.

نحو تقييم أكثر إنصافًا

يؤكد الباحثون أن الحل لا يكمن في إضافة بعض الاختبارات الجانبية، بل في إعادة هيكلة منظومة التقييم بالكامل، بحيث لا تشجع لوحات النتائج النماذج على "المقامرة" بالإجابات، فإذا استمرت الاختبارات في مكافأة التخمين، فإن النماذج ستواصل إنتاج الهلوسات مهما تطورت تقنيات التدريب.