يتحدث البشر أكثر من 7 آلاف لغة، منها 4 آلاف لغة مكتوبة والبقية لغات متكلمة فقط.. فهل يساعد الذكاء الاصطناعي على تخطي حاجز اللغة؟
ومع هذا الرقم الضخم سواء للغات المكتوبة أو اللغات المتكلمة فقط، التي يطلق عليها "لغات منخفضة الموارد"، يثار سؤال مهم بشأن قدرة محركات الترجمة على الترجمة التلقائية لهذه اللغات.
وإذا نظرنا إلى الواقع الحالي فهناك ما يزيد قليلا عن 100 لغة يمكن لمحركات الترجمة التلقائية، مثل ترجمة جوجل، العمل بها.
وبالتالي فإن هناك فجوة هائلة في التواصل عبر اللغات، والتي تتطلع وكالة نشاط مشاريع أبحاث المخابرات المتقدمة، وهي ذراع أبحاث الاستخبارات الأمريكية، إلى سدها من خلال تمويل فرق بحثية مختلفة لتطوير نظام يمكنه العثور على المعلومات وترجمتها وتلخيصها من أي لغة منخفضة الموارد، بحسب تقرير لـ"بي بي سي".
وغالبا ما يتم ترجمة اللغات الشائعة مثل الإنجليزية والإسبانية والفرنسية والألمانية بكثرة من قبل المؤسسات متعددة اللغات مثل البرلمان الأوروبي، الذي أصدر في السنوات العشر الماضية 1.37 مليار كلمة بـ 23 لغة، جرى نشر الكثير منها على الإنترنت، مما يسهل الوصول إليه من قبل محركات ترجمة التي تستخدم الذكاء الاصطناعي.
وتتعلم الخوارزميات التي تشغل أنظمة الترجمة من مجموعات البيانات الضخمة التي قام البشر بترجمتها. وتظهر محدودية تلك الأنظمة عندما تطلب ترجمة اللغات التي يجري التحدث بها على نطاق واسع ولكن لا تنشر بنفس القدر بترجمات عالية الجودة.
وبحسب التقرير، فإن النموذج المستحدث يستخدم تقنية الشبكة العصبية التي تحاكي الفكر البشري، وتسمح لنظم الذكاء الاصطناعي بفهم معنى الكلمات والجمل بدلا من حفظها فقط. ويبدو المفهوم بسيطا، لكن التحدي يكمن في تقليل كمية البيانات التي تحتاجها الشبكة لتكون قادرة على تحقيق النتائج المرجوة.
ودائما ما تستخدم الآلات بيانات أكثر بكثير لتعلم اللغات مما يفعل البشر. وتقول ريجينا بارزيلاي، الباحثة بمعهد ماساتشوستس للتكنولوجيا، "عندما تدرس لغة، لن ترى أبدا كمية البيانات التي تستخدمها أنظمة الترجمة الآلية اليوم لتعلم الترجمة من الإنجليزية إلى الفرنسية".
وأضافت "ترى جزءا صغيرا يجعلك قادرا على التعميم وفهم الفرنسية. وبنفس الطريقة، تريد أن نرى الجيل التالي من أنظمة الترجمة الآلية التي يمكنها القيام بعمل رائع حتى دون وجود هذا النوع من السلوك المتعطش للبيانات".
ويمكن تدريب الشبكات العصبية مسبقا لفهم السمات العامة وتركيبات الجمل، مما يسمح للباحثين بجمع بيانات أحادية اللغة من اللغات منخفضة الموارد عبر الإنترنت. وبمجرد التدريب المسبق على العديد من اللغات، يمكن للنماذج العصبية تعلم الترجمة بين اللغات باستخدام القليل جدا من مواد التدريب ثنائية اللغة.
{{ article.visit_count }}
ومع هذا الرقم الضخم سواء للغات المكتوبة أو اللغات المتكلمة فقط، التي يطلق عليها "لغات منخفضة الموارد"، يثار سؤال مهم بشأن قدرة محركات الترجمة على الترجمة التلقائية لهذه اللغات.
وإذا نظرنا إلى الواقع الحالي فهناك ما يزيد قليلا عن 100 لغة يمكن لمحركات الترجمة التلقائية، مثل ترجمة جوجل، العمل بها.
وبالتالي فإن هناك فجوة هائلة في التواصل عبر اللغات، والتي تتطلع وكالة نشاط مشاريع أبحاث المخابرات المتقدمة، وهي ذراع أبحاث الاستخبارات الأمريكية، إلى سدها من خلال تمويل فرق بحثية مختلفة لتطوير نظام يمكنه العثور على المعلومات وترجمتها وتلخيصها من أي لغة منخفضة الموارد، بحسب تقرير لـ"بي بي سي".
وغالبا ما يتم ترجمة اللغات الشائعة مثل الإنجليزية والإسبانية والفرنسية والألمانية بكثرة من قبل المؤسسات متعددة اللغات مثل البرلمان الأوروبي، الذي أصدر في السنوات العشر الماضية 1.37 مليار كلمة بـ 23 لغة، جرى نشر الكثير منها على الإنترنت، مما يسهل الوصول إليه من قبل محركات ترجمة التي تستخدم الذكاء الاصطناعي.
وتتعلم الخوارزميات التي تشغل أنظمة الترجمة من مجموعات البيانات الضخمة التي قام البشر بترجمتها. وتظهر محدودية تلك الأنظمة عندما تطلب ترجمة اللغات التي يجري التحدث بها على نطاق واسع ولكن لا تنشر بنفس القدر بترجمات عالية الجودة.
وبحسب التقرير، فإن النموذج المستحدث يستخدم تقنية الشبكة العصبية التي تحاكي الفكر البشري، وتسمح لنظم الذكاء الاصطناعي بفهم معنى الكلمات والجمل بدلا من حفظها فقط. ويبدو المفهوم بسيطا، لكن التحدي يكمن في تقليل كمية البيانات التي تحتاجها الشبكة لتكون قادرة على تحقيق النتائج المرجوة.
ودائما ما تستخدم الآلات بيانات أكثر بكثير لتعلم اللغات مما يفعل البشر. وتقول ريجينا بارزيلاي، الباحثة بمعهد ماساتشوستس للتكنولوجيا، "عندما تدرس لغة، لن ترى أبدا كمية البيانات التي تستخدمها أنظمة الترجمة الآلية اليوم لتعلم الترجمة من الإنجليزية إلى الفرنسية".
وأضافت "ترى جزءا صغيرا يجعلك قادرا على التعميم وفهم الفرنسية. وبنفس الطريقة، تريد أن نرى الجيل التالي من أنظمة الترجمة الآلية التي يمكنها القيام بعمل رائع حتى دون وجود هذا النوع من السلوك المتعطش للبيانات".
ويمكن تدريب الشبكات العصبية مسبقا لفهم السمات العامة وتركيبات الجمل، مما يسمح للباحثين بجمع بيانات أحادية اللغة من اللغات منخفضة الموارد عبر الإنترنت. وبمجرد التدريب المسبق على العديد من اللغات، يمكن للنماذج العصبية تعلم الترجمة بين اللغات باستخدام القليل جدا من مواد التدريب ثنائية اللغة.