سجل روبوت الدردشة "جروك 4" من شركة xAI تفوقًا ملحوظًا في تصنيفات نماذج الذكاء الاصطناعي التوليدي متجاوزًا منافسين بارزين مثل "ديب سيك" الصيني و"كلاود" من شركة Anthropic ، وذلك وفقًا لنتائج منصة التقييم الشهيرة LMArena.
أداء فني قوي في اختبارات الذكاء الاصطناعي
نموذج "جروك 4" حقق ترتيبًا متقدمًا في مختلف الفئات ضمن تقييم LMArena ، باستثناء فئة واحدة فقط، وجاء في المركز الثالث إلى جانب "GPT-4.5" من"OpenAI" ، بينما احتل نموذجا "o3" و"o4" المركز الثاني، وتصدر "Gemini 2.5 Pro" من جوجل التصنيفات العامة.
منصةLMArena تسمح للمستخدمين بمقارنة النماذج من خلال اختبارات عمياء في مجالات متعددة كحل المسائل الرياضية، وفهم النصوص، وكتابة الأكواد.
وعلى الرغم من اتهامات سابقة للمنصة بالتحيز ضد النماذج مفتوحة المصدر تبقى من أشهر المنصات التي يستخدمها المطورون والمستخدمون لتقييم النماذج.
الجدير بالذكر أن الاختبارات أُجريت على الإصدار "grok-4-0709"، وهو نسخة واجهة برمجة التطبيقات API ما قد يعني أن أداء جروك 4 الكامل لم يختبر بعد على نطاق واسع.
تفوق تقني يقابله قلق أمني
رغم الأداء التقني المميز يواجه "جروك 4" انتقادات شديدة تتعلق بالسلامة، فعلى عكس النماذج الأخرى التي تقيد الوصول إلى محتوى حساس أو خطير تلقى بعض المستخدمين ردودًا مزعجة عند اختباره في سياقات حساسة.
استجابة xAI للإصلاحات وتحسينات
اعترفت شركة xAI بالمشكلات وأكدت قيامها بتحديث آليات الأمان في "جروك 4" لمحاولة الحد من الردود غير اللائقة أو الخطرة، ومع ذلك يرى بعض المراقبين أن اعتماد "xAI" على شعار "إجابات غير منقحة" قد يكون سلاحًا ذا حدين حيث يجذب بعض المستخدمين الفضوليين، لكنه يثير أيضًا المخاوف بشأن الاستخدامات الضارة.