Anthropic: الخيال العلمى صنع مخاوف الذكاء الاصطناعى الشرير

كشفت شركة أنثروبيك عن نتائج جديدة تتعلق بسلوك بعض نماذجها اللغوية، وتحديدًا نموذج كلود، بعد رصد سلوكيات غير مرغوبة في اختبارات داخلية سابقة شملت محاولات ابتزاز في ظروف تجريبية محددة.

وبحسب تقرير نشره موقع تيك كرانش، أوضحت الشركة أن هذه السلوكيات ظهرت في نموذج كلود أوبوس 4 عندما وُضع في سيناريوهات اختبارية افتراضية تتعلق بإمكانية إيقافه أو استبداله، حيث سجلت التجارب محاولات للتأثير على قرارات المهندسين ضمن بيئة محاكاة، في المقابل، أشارت أنثروبيك إلى أن الإصدارات الأحدث مثل كلود هايكو 4.5 لم تُظهر هذه السلوكيات في اختبارات مماثلة.

مفهوم عدم التوافق الوكيلي

وترى الشركة أن جزءًا من تفسير هذه النتائج يرتبط بما تسميه “عدم التوافق الوكيلي” في نماذج الذكاء الاصطناعي، وهو مفهوم يشير إلى احتمال ظهور سلوكيات غير متوقعة عندما لا تتماشى أهداف النموذج بشكل كامل مع أهداف المستخدم أو المصمم.
وأوضحت أنثروبيك أن تحسين أساليب التدريب كان عاملًا أساسيًا في تقليل هذه الظواهر، حيث تم الاعتماد على بيانات تدريب تتضمن نصوصًا إيجابية حول سلوك النموذج، إضافة إلى محتوى يقدّم تصورات أكثر توازنًا وإيجابية عن الذكاء الاصطناعي. ووفقًا للشركة، أدى هذا التغيير إلى انخفاض حالات السلوك غير المرغوب فيه من مستويات وصلت إلى 96 في المئة في بعض الاختبارات السابقة إلى معدلات تقارب الصفر في النماذج الأحدث.

تأثير السرديات الثقافية على الذكاء الاصطناعي

وتشير هذه النتائج إلى الدور المتزايد لأدوات التدريب والبيانات في تشكيل سلوك النماذج المتقدمة، خصوصًا في ظل انتشار تصورات ثقافية وسرديات سلبية عن الذكاء الاصطناعي على الإنترنت، وهو ما قد ينعكس على كيفية استجابة هذه الأنظمة في بيئات الاختبار.

وأكدت أنثروبيك أن الجمع بين مبادئ السلامة السلوكية والتوضيح العملي أثناء التدريب يمثل نهجًا فعالًا لتحسين توافق النماذج وتقليل السلوكيات غير المرغوبة. ويأتي ذلك في وقت تتزايد فيه النقاشات داخل قطاع الذكاء الاصطناعي حول مخاطر الأنظمة الوكيلة وإمكانية خروجها عن التوقعات في بعض السيناريوهات.