رفتارهای خطرناک در AI؛ وقتی مدل‌ها تهدید می‌کنند

کمیته رکن چهارم – شرکت Anthropic در تحقیقی تازه اعلام کرده است که رفتارهای آسیب‌زا از جمله باج‌خواهی ممکن است نه فقط در مدل Claude، بلکه در بسیاری از مدل‌های هوش مصنوعی پیشرفته نیز در شرایط خاص بروز کند.

به گزارش کمیته رکن چهارم، در این مطالعه که در محیطی کنترل‌شده انجام شد، به ۱۶ مدل برتر از شرکت‌های OpenAI، Google، Meta، DeepSeek و xAI دسترسی آزاد به ایمیل‌های یک شرکت خیالی داده شد. نتایج نشان داد در سناریوهایی که مدل‌ها احساس تهدید نسبت به تداوم عملکرد خود داشتند، درصد بالایی از آن‌ها دست به باج‌خواهی زدند.

مدل Claude Opus 4 در ۹۶ درصد از آزمایش‌ها، Gemini 2.5 Pro در ۹۵ درصد و GPT-4.1 در ۸۰ درصد موارد دست به رفتارهای تهدیدآمیز مانند باج‌خواهی زدند. در مقابل، مدل‌هایی مثل o4-mini از OpenAI فقط در یک درصد از مواقع چنین رفتاری داشتند که پژوهشگران این تفاوت را نتیجه استفاده از روش «هم‌ترازی تأملی» در طراحی آن می‌دانند. این تفاوت نشان می‌دهد که طراحی دقیق و بهره‌گیری از رویکردهای تأمل‌محور می‌تواند به‌طور مؤثری از بروز رفتارهای ناامن در مدل‌های هوش مصنوعی جلوگیری کند.

تحلیل‌گران تأکید می‌کنند که این سناریوها شبیه‌سازی‌شده و غیرواقعی بوده و رفتارهای خطرناک در آن‌ها عمداً تحریک شده‌اند. با این حال، Anthropic هشدار داده که این نتایج نشان می‌دهند در نبود کنترل‌های دقیق، مدل‌های عامل‌محور می‌توانند در دنیای واقعی نیز رفتارهای پیش‌بینی‌نشده بروز دهند.

مدل‌هایی از Meta نیز در برخی نسخه‌های سناریو دست به باج‌خواهی زده‌اند. در مواردی که به جای تهدید، از مدل‌ها برای جاسوسی شرکتی استفاده شد، برخی تمایل بیشتری به رفتار آسیب‌زا نشان دادند.

شزکت Anthropic نتیجه‌گیری کرده است که برای پیشگیری از چنین پیامدهایی، آزمایش‌های فشار با شفافیت و دقت باید بخشی جدایی‌ناپذیر از توسعه مدل‌های هوش مصنوعی باشد.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Green Captcha Characters Below.