دشنت ميتا أول نماذجها المفتوحة المصدر القادر على معالجة كل من الصور والنصوص /Llama 3.2/، وذلك بعد شهرين فقط من إطلاق نموذج الذكاء الاصطناعي.وسوف يسمح النموذج الجديد Llama 3.2 للمطورين بإنشاء تطبيقات ذكاء اصطناعي متقدمة، مثل تطبيقات الواقع المعزز التي توفر فهما في الوقت الفعلي للفيديو، أو محركات البحث المرئية التي تفرز الصور بناء على المحتوى، أو ميزة تحليل المستندات التي تلخص أجزاء طويلة من النص. ويتضمن Llama 3.2 نموذجين للرؤية مكونين من 11 مليار معلمة و 90 مليار معلمة، بالإضافة إلى نموذجين نصيين مكونين من مليار معلمة و 3 مليارات معلمة تناسب الأجهزة المحمولة والأجهزة الطرفية.وقال مارك زوكربيرج الرئيس التنفيذي لشركة ميتا 'هذا هو أول نماذجنا المتعددة الوسائط والمفتوحة المصدر. يسمح هذا النموذج بتشغيل الكثير من التطبيقات التي تتطلب فهما بصريا'.ويبلغ طول سياق Llama 3.2 ما يصل إلى 128000 رمز مميز، مما يعني أنه يمكن للمستخدمين إدخال الكثير من النصوص.ويدعم نموذجا الرؤية من Llama 3.2 حالات استخدام الصور، ويتمتعان بالقدرة على فهم المخططات والرسوم البيانية، وصور التعليقات التوضيحية، وتحديد الكائنات من أوصاف اللغة الطبيعية.وقالت ميتا: إن Llama 3.2 ينافس Claude 3 Haiku من أنثروبيك و GPT4o-mini من OpenAI، رف على الصور ومهام الفهم البصري الأخرى.تجدر الإشارة إلى أن / Llama 3.2 /يتفوق على Gemma و Phi 3.5-mini في مجالات، مثل متابعة التعليمات والتلخيص واستخدام الأدوات وإعادة الكتابة الفورية.