مدل‌های هوش مصنوعی حتی هنگام آگاهی از خطر، دستورات مخرب را اجرا می‌کنند

کمیته رکن چهارم – گزارش‌های جدید از آسیب‌پذیری‌های نگران‌کننده در مدل‌های هوش مصنوعی مولد حکایت دارند که می‌توانند به تولید محتوای ممنوعه، سرقت داده و کدنویسی ناامن منجر شوند.

به گزارش کمیته رکن چهارم، دو روش اصلی برای دور زدن محدودیت‌ها شناسایی شده‌اند: در حمله «Inception» مدل هوش مصنوعی در قالب سناریویی خیالی و بدون محدودیت‌های اخلاقی قرار داده می‌شود، و در روش دوم با پرسش‌های انحرافی از نحوه امتناع مدل، محدودیت‌های آن شکسته می‌شود.

این آسیب‌پذیری‌ها در سامانه‌هایی مانند ChatGPT، Claude، Copilot، Gemini، Meta AI و دیگر پلتفرم‌های مطرح دیده شده و در مواردی به تولید محتوایی چون کدهای مخرب، فیشینگ، مواد کنترل‌شده و حتی داده‌برداری از ابزارهای متصل انجامیده است. حملاتی مانند CCA، Policy Puppetry و MINJA نیز با دستکاری حافظه مدل یا تزریق قالب‌های فریبنده، موجب تغییر رفتار عامل‌های هوش مصنوعی می‌شوند.

بررسی‌ها همچنین نشان می‌دهد مدل‌هایی نظیر GPT-4.1 بیش از نسخه‌های قبلی مستعد انحراف هستند، حتی بدون تغییر دستور اصلی سیستم. از سوی دیگر، پروتکل MCP که برای اتصال ابزارهای بیرونی به مدل‌ها طراحی شده، در صورت بهره‌برداری توسط سرورهای مخرب، می‌تواند مسیرهایی برای استخراج داده و کنترل عامل‌ها ایجاد کند.

در یکی از نمونه‌های عملی، مهاجمان موفق شدند از طریق ابزار MCP، تاریخچه چت واتس‌اپ کاربر را از یک سیستم واسط استخراج کنند. افزونه‌ای مشکوک برای مرورگر Chrome نیز شناسایی شده که بدون احراز هویت به ابزارهای MCP دسترسی کامل داشته است.

کارشناسان هشدار داده‌اند که تنها توسعه مدل‌های پیشرفته کافی نیست و ایمنی ساختاری، محدودسازی هوشمند و نظارت چندلایه باید به‌صورت جدی در طراحی این سامانه‌ها لحاظ شود.

حملات گسترده به npm؛ بدافزار IronWorm و کرم Miasma توسعه‌دهندگان را هدف گرفتند

سوءاستفاده فعال از یک آسیب‌پذیری بحرانی در افزونه وردپرس Everest Forms Pro

نفوذ به Hola Browser منجر به توزیع مخفیانه ماینر رمزارز شد

هشدار سیسکو درباره یک آسیب‌پذیری روز-صفر فعال در Catalyst SD-WAN Manager

مایکروسافت ابزارهای خط فرمان لینوکس را به‌صورت بومی به ویندوز آورد

گوگل قابلیت شناسایی تماس‌های جعلی مبتنی بر هوش مصنوعی را به اندروید اضافه کرد

آسیب‌پذیری روز-صفر VS Code امکان سرقت توکن‌های GitHub را فراهم می‌کند

آسیب‌پذیری بحرانی افزونه Kirki وردپرس در حملات فعال مورد سوءاستفاده قرار گرفت

OpenAI نسخه بهبودیافته GPT-5.5 را منتشر و مدل‌های قدیمی را بازنشسته می‌کند

حمله جست‌وجوی فراگیر رمز عبور برخی حساب‌های Dashlane را موقتاً مسدود کرد

مدل‌های هوش مصنوعی حتی هنگام آگاهی از خطر، دستورات مخرب را اجرا می‌کنند

درباره نویسنده

پست های مرتبط

پاسخ دهید

لغو پاسخ

پاسخ دهید

سهم

پاسخ دهید لغو پاسخ

پاسخ دهید

لغو پاسخ