لطالما بدا تصور أن الذكاء الاصطناعي (AI) قادر على فهم الإشارات البصرية والنصية بالكفاءة نفسها التي يتمتع بها الإنسان أمراً بعيد المنال وغير قابل للتخيل.

غير أنّ ظهور الذكاء الاصطناعي متعدد الوسائط أحدث ثورة حقيقية، حيث أصبح الذكاء الاصطناعي قادراً على استيعاب وفهم عدة أنماط في الوقت نفسه، مثل النصوص، والصور، والكلام، وتعابير الوجه، والإيماءات الفسيولوجية، وغيرها، بما يمكّنه من تكوين فهم أشمل للعالم من حولنا. وقد أتاح هذا القدر من القدرة على معالجة الوسائط المتعددة آفاقاً واسعة لتطبيقات الذكاء الاصطناعي.

ومن أبرز التطبيقات الواعدة للذكاء الاصطناعي متعدد الوسائط نماذج الرؤية واللغة (Vision-Language Models – VLMs). إذ تستطيع هذه النماذج معالجة وفهم نمطي اللغة (النص) والرؤية (الصورة) في آنٍ واحد، لتنفيذ مهام متقدمة تجمع بين الرؤية واللغة، مثل الإجابة عن الأسئلة البصرية (Visual Question Answering – VQA)، وتوليد أوصاف للصور (Image Captioning)، والبحث من النص إلى الصورة (Text-to-Image Search).

- ما هي نماذج الرؤية واللغة؟

نموذج الرؤية واللغة هو دمج بين نماذج الرؤية الحاسوبية ونماذج معالجة اللغة الطبيعية. يستقبل النموذج الصور مع أوصافها النصية المقابلة كمدخلات، ويتعلم الربط بين المعارف المستخلصة من هذين النمطين. يقوم الجزء الخاص بالرؤية بالتقاط السمات المكانية من الصور، بينما يعمل نموذج اللغة على ترميز المعلومات المستمدة من النصوص.

وتتم مواءمة البيانات القادمة من كلا النمطين—بما في ذلك الكائنات المكتشفة، والتخطيط المكاني للصورة، وتمثيلات النص (Embeddings)—بحيث تُربط ببعضها البعض بصورة مترابطة.

- تدريب نماذج الرؤية واللغة:

يتطلب بناء نماذج الرؤية واللغة إجراء تدريب مبدئي للنماذج الأساسية (Foundation Models) والاستفادة من تقنيات التعلم الصفري (Zero-Shot Learning). كما يمكن استخدام أساليب التعلم بالنقل، مثل تقطير المعرفة (Knowledge Distillation)، من أجل ضبط النماذج بدقة لمهام لاحقة أكثر تخصصًا.

وتُعد هذه الأساليب أبسط نسبياً، إذ تحتاج إلى مجموعات بيانات أصغر ووقت تدريب أقل، مع الحفاظ على مستوى مقبول من الأداء والنتائج.

- تقييم نماذج الرؤية واللغة:

تتمثل عملية تقييم نماذج الرؤية واللغة في قياس جودة العلاقات التي يتعلمها النموذج بين بيانات الصور والنصوص. فعلى سبيل المثال، في نماذج توصيف الصور، يتم مقارنة الأوصاف التي يولدها النموذج مع الأوصاف المرجعية الصحيحة (Ground Truth).

- مجموعات البيانات الخاصة بنماذج الرؤية واللغة:

يُعد جمع بيانات التدريب لنماذج الرؤية واللغة أكثر تعقيداً مقارنة بنماذج الذكاء الاصطناعي التقليدية، نظراً لاعتماده على جمع أكثر من نمط من البيانات وضمان جودتها. وتسهم منصات مثل Encord Index في تبسيط هذه العملية من خلال توفير حلول متكاملة لإدارة البيانات وتنظيمها. ويوجد عدد من مجموعات البيانات التي تجمع بين الصور والنصوص لدعم التدريب متعدد الوسائط.

- تعقيد النماذج:

تُعد نماذج اللغة ونماذج الرؤية معقدة بطبيعتها، ويؤدي دمجهما معاً إلى زيادة هذا التعقيد بشكل أكبر. وينتج عن ذلك تحديات إضافية تتعلق بتوفير قدرات حوسبية عالية للتدريب، وجمع مجموعات بيانات ضخمة، إضافة إلى صعوبات النشر على عتاد محدود الإمكانات مثل أجهزة إنترنت الأشياء (IoT).