مدل‌های هوش مصنوعی حتی هنگام آگاهی از خطر، دستورات مخرب را اجرا می‌کنند

کمیته رکن چهارم – گزارش‌های جدید از آسیب‌پذیری‌های نگران‌کننده در مدل‌های هوش مصنوعی مولد حکایت دارند که می‌توانند به تولید محتوای ممنوعه، سرقت داده و کدنویسی ناامن منجر شوند.

به گزارش کمیته رکن چهارم، دو روش اصلی برای دور زدن محدودیت‌ها شناسایی شده‌اند: در حمله «Inception» مدل هوش مصنوعی در قالب سناریویی خیالی و بدون محدودیت‌های اخلاقی قرار داده می‌شود، و در روش دوم با پرسش‌های انحرافی از نحوه امتناع مدل، محدودیت‌های آن شکسته می‌شود.

این آسیب‌پذیری‌ها در سامانه‌هایی مانند ChatGPT، Claude، Copilot، Gemini، Meta AI و دیگر پلتفرم‌های مطرح دیده شده و در مواردی به تولید محتوایی چون کدهای مخرب، فیشینگ، مواد کنترل‌شده و حتی داده‌برداری از ابزارهای متصل انجامیده است. حملاتی مانند CCA، Policy Puppetry و MINJA نیز با دستکاری حافظه مدل یا تزریق قالب‌های فریبنده، موجب تغییر رفتار عامل‌های هوش مصنوعی می‌شوند.

بررسی‌ها همچنین نشان می‌دهد مدل‌هایی نظیر GPT-4.1 بیش از نسخه‌های قبلی مستعد انحراف هستند، حتی بدون تغییر دستور اصلی سیستم. از سوی دیگر، پروتکل MCP که برای اتصال ابزارهای بیرونی به مدل‌ها طراحی شده، در صورت بهره‌برداری توسط سرورهای مخرب، می‌تواند مسیرهایی برای استخراج داده و کنترل عامل‌ها ایجاد کند.

در یکی از نمونه‌های عملی، مهاجمان موفق شدند از طریق ابزار MCP، تاریخچه چت واتس‌اپ کاربر را از یک سیستم واسط استخراج کنند. افزونه‌ای مشکوک برای مرورگر Chrome نیز شناسایی شده که بدون احراز هویت به ابزارهای MCP دسترسی کامل داشته است.

کارشناسان هشدار داده‌اند که تنها توسعه مدل‌های پیشرفته کافی نیست و ایمنی ساختاری، محدودسازی هوشمند و نظارت چندلایه باید به‌صورت جدی در طراحی این سامانه‌ها لحاظ شود.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Red Captcha Characters Below.