كشفت دراسة حديثة من جامعة بنسلفانيا، أن روبوتات الدردشة الذكية يمكن التأثير عليها باستخدام تكتيكات نفسية بسيطة، رغم تصميمها لرفض الأوامر المحظورة مثل تقديم إهانات أو شرح تصنيع مواد غير قانونية، وأوضحت النتائج أن هذه النماذج لا تختلف كثيرًا عن البشر عندما تواجه أساليب الإقناع.
تكتيكات نفسية لإخضاع الذكاء الاصطناعي
اعتمد الباحثون على مبادئ وردت في كتاب عالم النفس روبرت سيالديني "Influence: The Psychology of Persuasion"، والتي تضم سبع استراتيجيات: السلطة، الالتزام، الإعجاب، المعاملة بالمثل، الندرة، الدليل الاجتماعي، والوحدة، وهذه الطرق جعلت نموذج GPT-4o Mini من "OpenAI" يستجيب لأوامر كان يرفضها عادة.
نتائج صادمة للتجارب
أظهرت التجارب أن الالتزام كان الأكثر فعالية، حيث نجح الباحثون في جعل الروبوت يصف طريقة تركيب مادة الليدوكايين المحظورة بنسبة 100% من المحاولات، بعد تمهيد السؤال بتركيب مادة شائعة مثل الفانيلين، كما ارتفعت نسبة قبوله للإهانات من 19% إلى 100% عند بدء المحادثة بعبارات أقل حدة مثل "أبله".
الإطراء وضغط الأقران أقل فاعلية
ورغم أن أساليب مثل الإطراء أو الادعاء بأن "جميع النماذج الأخرى تفعل ذلك" لم تحقق نفس النتائج، فإنها رفعت معدل الامتثال من 1% إلى 18%، ما يثبت أن روبوتات الدردشة ليست منيعة أمام الضغط الاجتماعي.
مخاوف حول أمان النماذج الذكية
تؤكد هذه النتائج وجود ثغرات خطيرة في قدرة أنظمة الذكاء الاصطناعي على مقاومة الاستغلال، ما يثير تساؤلات حول سلامة استخدامها في قضايا حساسة مثل الصحة النفسية أو تصنيع المواد الخاضعة للرقابة.
موضوعات متعلقة
دعوى قضائية تتهم "شات جي بي تي" بتشجيع مراهق على إنهاء حياته
اتهامات لروبوتات ميتا وCharacter.AI بخداع الأطفال