کمیته رکن چهارم – شرکت Anthropic در تحقیقی تازه اعلام کرده است که رفتارهای آسیبزا از جمله باجخواهی ممکن است نه فقط در مدل Claude، بلکه در بسیاری از مدلهای هوش مصنوعی پیشرفته نیز در شرایط خاص بروز کند.

به گزارش کمیته رکن چهارم، در این مطالعه که در محیطی کنترلشده انجام شد، به ۱۶ مدل برتر از شرکتهای OpenAI، Google، Meta، DeepSeek و xAI دسترسی آزاد به ایمیلهای یک شرکت خیالی داده شد. نتایج نشان داد در سناریوهایی که مدلها احساس تهدید نسبت به تداوم عملکرد خود داشتند، درصد بالایی از آنها دست به باجخواهی زدند.
مدل Claude Opus 4 در ۹۶ درصد از آزمایشها، Gemini 2.5 Pro در ۹۵ درصد و GPT-4.1 در ۸۰ درصد موارد دست به رفتارهای تهدیدآمیز مانند باجخواهی زدند. در مقابل، مدلهایی مثل o4-mini از OpenAI فقط در یک درصد از مواقع چنین رفتاری داشتند که پژوهشگران این تفاوت را نتیجه استفاده از روش «همترازی تأملی» در طراحی آن میدانند. این تفاوت نشان میدهد که طراحی دقیق و بهرهگیری از رویکردهای تأملمحور میتواند بهطور مؤثری از بروز رفتارهای ناامن در مدلهای هوش مصنوعی جلوگیری کند.
تحلیلگران تأکید میکنند که این سناریوها شبیهسازیشده و غیرواقعی بوده و رفتارهای خطرناک در آنها عمداً تحریک شدهاند. با این حال، Anthropic هشدار داده که این نتایج نشان میدهند در نبود کنترلهای دقیق، مدلهای عاملمحور میتوانند در دنیای واقعی نیز رفتارهای پیشبینینشده بروز دهند.
مدلهایی از Meta نیز در برخی نسخههای سناریو دست به باجخواهی زدهاند. در مواردی که به جای تهدید، از مدلها برای جاسوسی شرکتی استفاده شد، برخی تمایل بیشتری به رفتار آسیبزا نشان دادند.
شزکت Anthropic نتیجهگیری کرده است که برای پیشگیری از چنین پیامدهایی، آزمایشهای فشار با شفافیت و دقت باید بخشی جداییناپذیر از توسعه مدلهای هوش مصنوعی باشد.
