كشفت OpenAI عن نظامها البرمجي الجديد والذي يحمل اسم Codex، والمصمم لتنفيذ المهام البرمجية المعقدة بناءً على أوامر تُكتب بلغة بشرية طبيعية.
ويُعد Codex تطورًا بارزًا في مسار أدوات البرمجة المدعومة بالذكاء الاصطناعي، ما يمهد لدخول OpenAI إلى سوق متسارع يتجه نحو ما يُعرف بأدوات البرمجة الوكيلة.
الفرق بين أدوات البرمجة التقليدية والأدوات الوكيلة
معظم مساعدات البرمجة المدعومة بالذكاء الاصطناعي مثل GitHub Copilot وأدوات مثل Cursor وWindsurf، تعمل على شكل تكملة ذكية للكود داخل بيئة تطوير متكاملة، حيث يتفاعل المستخدم مباشرة مع الكود الذي يولده الذكاء الاصطناعي، ومع ذلك يبقى من الصعب الاعتماد على هذه الأدوات لإنجاز مهام كاملة بشكل مستقل إذ يحتاج المستخدم عادةً إلى مراجعة الكود ومتابعته.
وعلى النقيض فإن الأدوات الوكيلة الحديثة مثل Devin وSWE-Agent وOpenHands إلى جانب OpenAI Codex ، تستهدف العمل بشكل مستقل تمامًا من دون الحاجة لمشاهدة المستخدم للكود، والهدف هو أن تتصرف كمدير فريق برمجة يقوم بتوزيع المهام عبر أنظمة العمل مثل Asana أو Slack ثم يتابع إنجاز الحلول تلقائيًا.
تطور البرمجة الآلية كخطوة منطقية في الأتمتة
وبدأ التطور من كتابة كل سطر كود يدويًا، ثم جاء GitHub Copilot ليقدم تكملة تلقائية ذكية، مع بقاء المطور في الحلقة بشكل كامل لكنه قادر على اختصار الوقت، والهدف الآن هو أن تتجاوز الأنظمة الوكيلة بيئة التطوير لتصبح مدراء مهام برمجية مستقلين يتعاملون مع المشاكل ويحلونها تلقائيًا.
التحديات والانتقادات التي تواجه الأدوات الوكيلة
رغم الطموحات الكبيرة لم تكن التجربة سهلة، وعلى سبيل المثال واجه Devin انتقادات لاذعة بسبب كثرة الأخطاء التي جعلت مراقبة النموذج وتأثيره لا تختلف كثيرًا عن البرمجة اليدوية، ومع ذلك جذب هذا النموذج اهتمام المستثمرين، حيث حصلت الشركة الأم Cognition AI على تمويل ضخم بقيمة تقدر بمليارات الدولارات.
حتى المؤيدون يشددون على ضرورة المراجعة البشرية وعدم الاعتماد الكلي على البرمجة الذاتية، حيث يمكن أن تؤدي الموافقة التلقائية على الكود إلى مشاكل كبيرة.
وقال روبرت برينان المدير التنفيذي لشركة All Hands AI التي تطور OpenHands ، إن حالات "الهلوسة" (hallucinations) أي اختلاق تفاصيل غير صحيحة عن واجهات برمجة التطبيقات، لا تزال مشكلة قائمة.
قياس الأداء وتوقعات المستقبل
يمكن قياس تقدم هذه الأدوات عبر لوحات التقييم مثل SWE-Bench ، حيث تحل نماذج OpenHands نسبة 65.8% من المشكلات، بينما يدعي OpenAI أن Codex-1 يصل إلى 72.1%، ومع بعض التحفظات وعدم التحقق المستقل.
ومع ذلك لا تعني الدرجات العالية بالضرورة قدرة الأنظمة على العمل بشكل مستقل بالكامل، إذ ما زالت الحاجة قائمة لمراجعة بشرية مكثفة خاصة في المشاريع المعقدة متعددة المراحل.
آفاق التطوير ومستقبل البرمجة الوكيلة
يأمل الجميع أن تستمر نماذج الذكاء الاصطناعي في التطور بوتيرة ثابتة، مما يسمح لهذه الأنظمة بالتحول إلى أدوات تطوير موثوقة، لكن السيطرة على مشكلات الهلوسة ومشاكل الموثوقية ستكون حاسمة.
يختم برينان حديثه بالإشارة إلى "الحاجز الصوتي" الذي يعيق الثقة الكاملة في هذه الأنظمة، ويتساءل عن مقدار العمل الذي يمكن بالفعل أن يتولاه الوكلاء الذكيون بدون إشراف بشري.