کمیته رکن چهارم – گزارشهای جدید از آسیبپذیریهای نگرانکننده در مدلهای هوش مصنوعی مولد حکایت دارند که میتوانند به تولید محتوای ممنوعه، سرقت داده و کدنویسی ناامن منجر شوند.

به گزارش کمیته رکن چهارم، دو روش اصلی برای دور زدن محدودیتها شناسایی شدهاند: در حمله «Inception» مدل هوش مصنوعی در قالب سناریویی خیالی و بدون محدودیتهای اخلاقی قرار داده میشود، و در روش دوم با پرسشهای انحرافی از نحوه امتناع مدل، محدودیتهای آن شکسته میشود.
این آسیبپذیریها در سامانههایی مانند ChatGPT، Claude، Copilot، Gemini، Meta AI و دیگر پلتفرمهای مطرح دیده شده و در مواردی به تولید محتوایی چون کدهای مخرب، فیشینگ، مواد کنترلشده و حتی دادهبرداری از ابزارهای متصل انجامیده است. حملاتی مانند CCA، Policy Puppetry و MINJA نیز با دستکاری حافظه مدل یا تزریق قالبهای فریبنده، موجب تغییر رفتار عاملهای هوش مصنوعی میشوند.
بررسیها همچنین نشان میدهد مدلهایی نظیر GPT-4.1 بیش از نسخههای قبلی مستعد انحراف هستند، حتی بدون تغییر دستور اصلی سیستم. از سوی دیگر، پروتکل MCP که برای اتصال ابزارهای بیرونی به مدلها طراحی شده، در صورت بهرهبرداری توسط سرورهای مخرب، میتواند مسیرهایی برای استخراج داده و کنترل عاملها ایجاد کند.
در یکی از نمونههای عملی، مهاجمان موفق شدند از طریق ابزار MCP، تاریخچه چت واتساپ کاربر را از یک سیستم واسط استخراج کنند. افزونهای مشکوک برای مرورگر Chrome نیز شناسایی شده که بدون احراز هویت به ابزارهای MCP دسترسی کامل داشته است.
کارشناسان هشدار دادهاند که تنها توسعه مدلهای پیشرفته کافی نیست و ایمنی ساختاری، محدودسازی هوشمند و نظارت چندلایه باید بهصورت جدی در طراحی این سامانهها لحاظ شود.
