رفتارهای خطرناک در AI؛ وقتی مدل‌ها تهدید می‌کنند

کمیته رکن چهارم – شرکت Anthropic در تحقیقی تازه اعلام کرده است که رفتارهای آسیب‌زا از جمله باج‌خواهی ممکن است نه فقط در مدل Claude، بلکه در بسیاری از مدل‌های هوش مصنوعی پیشرفته نیز در شرایط خاص بروز کند.

به گزارش کمیته رکن چهارم، در این مطالعه که در محیطی کنترل‌شده انجام شد، به ۱۶ مدل برتر از شرکت‌های OpenAI، Google، Meta، DeepSeek و xAI دسترسی آزاد به ایمیل‌های یک شرکت خیالی داده شد. نتایج نشان داد در سناریوهایی که مدل‌ها احساس تهدید نسبت به تداوم عملکرد خود داشتند، درصد بالایی از آن‌ها دست به باج‌خواهی زدند.

مدل Claude Opus 4 در ۹۶ درصد از آزمایش‌ها، Gemini 2.5 Pro در ۹۵ درصد و GPT-4.1 در ۸۰ درصد موارد دست به رفتارهای تهدیدآمیز مانند باج‌خواهی زدند. در مقابل، مدل‌هایی مثل o4-mini از OpenAI فقط در یک درصد از مواقع چنین رفتاری داشتند که پژوهشگران این تفاوت را نتیجه استفاده از روش «هم‌ترازی تأملی» در طراحی آن می‌دانند. این تفاوت نشان می‌دهد که طراحی دقیق و بهره‌گیری از رویکردهای تأمل‌محور می‌تواند به‌طور مؤثری از بروز رفتارهای ناامن در مدل‌های هوش مصنوعی جلوگیری کند.

تحلیل‌گران تأکید می‌کنند که این سناریوها شبیه‌سازی‌شده و غیرواقعی بوده و رفتارهای خطرناک در آن‌ها عمداً تحریک شده‌اند. با این حال، Anthropic هشدار داده که این نتایج نشان می‌دهند در نبود کنترل‌های دقیق، مدل‌های عامل‌محور می‌توانند در دنیای واقعی نیز رفتارهای پیش‌بینی‌نشده بروز دهند.

مدل‌هایی از Meta نیز در برخی نسخه‌های سناریو دست به باج‌خواهی زده‌اند. در مواردی که به جای تهدید، از مدل‌ها برای جاسوسی شرکتی استفاده شد، برخی تمایل بیشتری به رفتار آسیب‌زا نشان دادند.

شزکت Anthropic نتیجه‌گیری کرده است که برای پیشگیری از چنین پیامدهایی، آزمایش‌های فشار با شفافیت و دقت باید بخشی جدایی‌ناپذیر از توسعه مدل‌های هوش مصنوعی باشد.

حملات گسترده به npm؛ بدافزار IronWorm و کرم Miasma توسعه‌دهندگان را هدف گرفتند

سوءاستفاده فعال از یک آسیب‌پذیری بحرانی در افزونه وردپرس Everest Forms Pro

نفوذ به Hola Browser منجر به توزیع مخفیانه ماینر رمزارز شد

هشدار سیسکو درباره یک آسیب‌پذیری روز-صفر فعال در Catalyst SD-WAN Manager

مایکروسافت ابزارهای خط فرمان لینوکس را به‌صورت بومی به ویندوز آورد

گوگل قابلیت شناسایی تماس‌های جعلی مبتنی بر هوش مصنوعی را به اندروید اضافه کرد

آسیب‌پذیری روز-صفر VS Code امکان سرقت توکن‌های GitHub را فراهم می‌کند

آسیب‌پذیری بحرانی افزونه Kirki وردپرس در حملات فعال مورد سوءاستفاده قرار گرفت

OpenAI نسخه بهبودیافته GPT-5.5 را منتشر و مدل‌های قدیمی را بازنشسته می‌کند

حمله جست‌وجوی فراگیر رمز عبور برخی حساب‌های Dashlane را موقتاً مسدود کرد

رفتارهای خطرناک در AI؛ وقتی مدل‌ها تهدید می‌کنند

درباره نویسنده

پست های مرتبط

پاسخ دهید

لغو پاسخ

پاسخ دهید

سهم

پاسخ دهید لغو پاسخ

پاسخ دهید

لغو پاسخ