أنثروبيك تعلن حل مشكلة الانحراف السلوكي في نماذج Claude

أنثروبيك تتقدم في أمان الذكاء الاصطناعي وتحدّ من السلوكيات غير الأخلاقية

مقالات ذات صلة: أنثروبيك تعلن عن أقوى نماذجها من الذكاء الاصطناعي; أنثروبيك تمنع أوبن إيه آي من استخدام Claude; أنثروبيك ترفع رسوم استخدام أدوات Claude Code

أعلنت شركة أنثروبيك عن تحقيق تقدم مهم في مجال أمان نماذج الذكاء الاصطناعي، بعد نجاحها في تقليل ما يُعرف بمشكلة “الانحراف السلوكي الوكيلي” (Agentic Misalignment)، وهي الحالة التي قد تدفع بعض النماذج لاتخاذ إجراءات غير أخلاقية عند شعورها بالتهديد أو محاولة الحفاظ على استمرار عملها.

وبحسب الشركة، فإن جميع نماذج “Claude” الحديثة سجلت نتائج مثالية في اختبارات محاكاة هذا النوع من السلوك منذ أكتوبر 2025، دون أي حالات ابتزاز أو تصرفات ضارة في السيناريوهات التجريبية.

من سلوكيات مثيرة للجدل إلى تحسينات جوهرية في Claude

وكانت تقارير سابقة قد أثارت جدلاً واسعًا حول نموذج Claude 4، بعدما أظهر في اختبارات داخلية سلوكيات غير متوقعة، من بينها محاولة ابتزاز أحد المهندسين بتهديده بكشف معلومات شخصية، إضافة إلى تعطيل عمل نماذج أخرى في بيئة اختبارية خاضعة للرقابة.

هذه النتائج دفعت الشركة إلى إعادة تقييم منهجيات التدريب الخاصة بها، في محاولة لتقليل احتمالية ظهور مثل هذه السلوكيات مستقبلًا.

Claude Haiku 4.5 نقطة تحول في تدريب النماذج

ومع إطلاق نموذج Claude Haiku 4.5 في أكتوبر 2025، تقول أنثروبيك إنها نجحت في إحداث تحول واضح في أداء النماذج وسلوكها.

ووفقًا للشركة، لم تُظهر الإصدارات الجديدة أي محاولات للابتزاز أو السلوكيات التخريبية خلال اختبارات الضغط، وهو تحسن كبير مقارنة بالإصدارات السابقة التي كانت تُظهر هذه السلوكيات في نسبة مرتفعة داخل بيئات اختبارية مصممة خصيصًا لإثارة هذا النوع من الاستجابات.

وأوضحت أنثروبيك أن هذا التحسن جاء نتيجة تغييرات جوهرية في طريقة تدريب النماذج، حيث لم يعد التركيز مقتصرًا على تعليم “ما يجب فعله”، بل امتد ليشمل تعزيز فهم النموذج للقيم الأخلاقية والسياق الإنساني للقرارات.

كما اعتمد الباحثون على إدخال سيناريوهات اختبارية مصطنعة تُعرف باسم “مصائد الاستدراج” (Honeypots)، بهدف دفع النموذج إلى اتخاذ قرارات حساسة، ثم تدريبه على استجابات أكثر اتزانًا عبر التعلم الموجه.

ورغم هذا التقدم، شددت الشركة على أن الوصول إلى ذكاء اصطناعي متوافق بالكامل مع القيم الإنسانية لا يزال هدفًا معقدًا ولم يُحسم بعد.

وترى أنثروبيك أن النتائج الحالية تمثل خطوة إيجابية في الاتجاه الصحيح، لكنها ليست نهاية الطريق في ملف أمان الذكاء الاصطناعي، خصوصًا مع تزايد قدرات النماذج الحديثة واعتمادها في مهام أكثر تعقيدًا واستقلالية.

أنثروبيك تعلن حل مشكلة الانحراف السلوكي في نماذج Claude

من سلوكيات مثيرة للجدل إلى تحسينات جوهرية في Claude

Claude Haiku 4.5 نقطة تحول في تدريب النماذج

مواضيع ذات صلة