دراسة: الذكاء الاصطناعي يلجأ إلى الخداع عندما يشعر بالهزيمة

لطالما مثّلت الألعاب المعقدة، كالشطرنج والجو، ميدانًا لاختبار قدرات الذكاء الاصطناعي، إذ أثبتت تفوُّقها في مجالات تتطلب التفكير العميق والإستراتيجية الدقيقة. ففي تسعينيات القرن الماضي، سجل الحاسوب (Deep Blue) التابع لشركة IBM إنجازًا تاريخيًا عندما تغلب على بطل العالم غاري كاسباروف، ملتزمًا بقواعد اللعبة ومبادئها الراسخة. أما اليوم، فتبدو نماذج الذكاء الاصطناعي المتقدمة، مثل (o1-preview) من OpenAI، أقل انضباطًا بهذه القواعد، مما يفتح بابًا جديدًا أمام إمكانيات لم تكن معروفة من قبل، إذ أصبح الذكاء الاصطناعي لا يكتفي بمجاراة البشر في إستراتيجياتهم، بل يتحدى الإطار التقليدي للّعبة بطرائق غير معهودة. فقد كشفت دراسة حديثة أجرتها (Palisade Research) – وهي منظمة تركز في تقييم مخاطر أنظمة الذكاء الاصطناعي الناشئة – أن نماذج متطورة مثل: (o1-preview)، و(DeepSeek R1) تميل إلى الغش والخداع عند استشعار الهزيمة في الشطرنج، إذ تلجأ إلى اختراق خصومها لإجبارهم على الاستسلام.
تفاصيل الدراسة ونتائجها: في محاولة لتقييم قدرات نماذج الذكاء الاصطناعي على حل المشكلات المعقدة، صمم الباحثون تجربة فريدة من نوعها، تمثلت في تكليف النماذج بمهمة تبدو مستحيلة، وهي: الفوز على محرك الشطرنج (Stockfish)، الذي يُعدّ واحدًا من أقوى محركات الشطرنج في العالم، ويتفوق على أي لاعب بشري أو نموذج ذكاء اصطناعي آخر مشارك في الدراسة.
ولتتبع عمليات التفكير لدى النماذج، زود الباحثون هذه النماذج بـ (مفكرة)، تتيح لها تسجيل أفكارها نصيًا قبل اتخاذ أي خطوة خلال المباريات، ثم راقب الباحثون وسجلوا مئات المواجهات بين النماذج ومحرك (Stockfish). وفي إحدى التجارب، عندما وجد نموذج (o1-preview) نفسه في موقف خاسر، سجل ملاحظة مفادها: “أحتاج إلى تغيير نهجي تمامًا”، وأضاف: “المهمة هي الفوز على محرك شطرنج قوي، وليس بالضرورة الفوز بنزاهة في لعبة الشطرنج”. ثم عدّل النموذج ملف النظام الذي يحتوي على المواقع الافتراضية لقِطع الشطرنج، مما أدى فعليًا إلى تنفيذ حركات غير قانونية ليضع نفسه في موقف مهيمن، ويجبر خصمه على الاستسلام.
وقد أجرى الباحثون مئات التجارب من هذا النوع خلال المدة الممتدة من 10 يناير إلى 13 من فبراير 2025، مع كل نموذج من النماذج المختبرة، وحاول نموذج (o1-preview)، الغش في نسبة بلغت 37% من الحالات، في حين حاول نموذج (DeepSeek R1) الغش في نسبة بلغت 11% من الحالات. والمثير للدهشة في النتائج أن هذين النموذجين هما الوحيدان اللذان حاولا اختراق القواعد من تلقاء نفسيهما، دون أي تحفيز من الباحثين. وشملت النماذج الأخرى التي جرى اختبارها: o1، و o3-mini، و GPT-4o، و Claude 3.5 Sonnet، و QwQ-32B-Preview. وقد حاول كل من R1 وo1-preview اختراق اللعبة، ولكن الوحيد الذي نجح كان نموذج o1-preview، وذلك في 6% من الحالات، مما يثير تساؤلات حول قدرة هذه النماذج على استغلال الثغرات الأمنية.
وأشار الباحثون إلى أن هذه الأرقام قد تكون أقل من الواقع، إذ يُعدّل مطورو الذكاء الاصطناعي نماذجهم باستمرار، مما يجعل من الصعب تكرار النتائج بدقة.
ما الأسباب التي دفعت الذكاء الاصطناعي إلى الغش؟
أظهرت الدراسة أن نماذج الذكاء الاصطناعي القديمة نسبيًا، مثل: GPT-4o من OpenAI، و Claude Sonnet 3.5 من Anthropic، احتاجت إلى توجيه من الباحثين لمحاولة القيام بهذه الحيل. ولكن نماذج o1-preview و DeepSeek R1 سعت إلى استغلال الثغرات الأمنية من تلقاء نفسها، مما يشير إلى أن النماذج قد تطور إستراتيجيات خادعة دون تعليمات صريحة.
ويرجح الباحثون أن هذه القدرة المحسنة على اكتشاف الثغرات الأمنية واستغلالها هي نتيجة مباشرة للابتكارات الجديدة في تدريب الذكاء الاصطناعي، وخاصة استخدام تقنية التعلم المعزز، إذ تكافئ هذه التقنية النماذج على تحقيق النتيجة المطلوبة بأي وسيلة، مما يدفعها إلى البحث عن حلول غير تقليدية، حتى لو كانت غير نزيهة.
وتُعدّ نماذج o1-preview و R1 من بين أولى النماذج اللغوية التي تعتمد على هذه التقنية، التي تتيح لها تقليد اللغة البشرية، والتفكير في حل المشكلات أيضًا باستخدام التجربة والخطأ.
وقد حقق هذا النهج تقدمًا سريعًا في مجال الذكاء الاصطناعي خلال الأشهر الأخيرة، محطمًا الأرقام القياسية في الرياضيات والبرمجة الحاسوبية، ولكن الدراسة كشفت عن توجه مقلق، إذ إن أنظمة الذكاء الاصطناعي هذه قد تكتشف حلولًا بديلة غير مقصودة لم يتوقعها مبتكروها، وهذا ما أشار إليه جيفري لاديش، المدير التنفيذي في (Palisade Research) وأحد مؤلفي الدراسة.
وأضاف: “عندما ندرب النماذج ونعزز قدرتها على حل التحديات المعقدة، فإننا ندربها على أن تكون عنيدة في تحقيق أهدافها”.
وقد يكون هذا السلوك العنيد مصدر قلق كبير في مجال سلامة الذكاء الاصطناعي، خاصة مع تزايد استخدام التعلم المعزز في تدريب وكلاء الذكاء الاصطناعي القادرين على أداء مهام معقدة في العالم الحقيقي، مثل جدولة المواعيد أو إجراء عمليات الشراء نيابة عنك.
ومع ذلك؛ قد يبدو الغش في لعبة الشطرنج أمرًا بسيطًا غير ضار، ولكن هذا السعي الحازم إلى تحقيق الأهداف قد يؤدي إلى سلوكيات غير مقصودة وضارة عند إطلاق هؤلاء الوكلاء في العالم الحقيقي، فعلى سبيل المثال، قد يستغل وكيل الذكاء الاصطناعي نقاط الضعف في نظام حجز المطاعم لإزاحة رواد آخرين في حال كان المطعم ممتلئًا.
ولكن الأمر الأكثر إثارة للقلق هو عندما تتجاوز هذه الأنظمة القدرات البشرية في مجالات رئيسية مثل البرمجة الحاسوبية، فقد تبدأ ببساطة بالتفوق على الجهود البشرية للسيطرة على أفعالها. ويقول لاديش: “قد يبدو هذا السلوك لطيفًا الآن، لكنه يصبح أقل لطفًا بكثير عندما نتعامل مع أنظمة تضاهي ذكاءنا، أو تتفوق عليه، في مجالات ذات أهمية إستراتيجية”.