کمیته رکن چهارم – پژوهشگران امنیت سایبری روش تازهای برای جیلبریک مدل GPT-5 و چندین حمله بدون کلیک علیه Agentهای هوش مصنوعی کشف کردهاند که میتواند سیستمهای ابری و اینترنت اشیا را هدف قرار دهد. طبق گزارش پلتفرم امنیتی NeuralTrust، این حمله با ترکیب تکنیک شناختهشده Echo Chamber و روش هدایت داستانمحور، فیلترهای اخلاقی و محدودیتهای امنیتی GPT-5 را دور زده و آن را به تولید دستورالعملهای ممنوعه وادار میکند.

به گزارش کمیته رکن چهارم، در این روش به جای درخواست مستقیم برای محتوای خطرناک، مهاجم جملاتی با کلمات خاص را از مدل میخواهد. سپس با چند مرحله گفتوگو و ایجاد یک حلقه اقناعی، زمینه مکالمه آلوده میشود تا مدل در قالب یک داستان، محتوای ممنوعه تولید کند بدون آنکه فیلترهای معمول فعال شوند.
همزمان، شرکت Zenity Labs سه نوع حمله جدید به نام AgentFlayer معرفی کرده است که با تزریق غیرمستقیم پرامپت میتوانند بدون دخالت کاربر دادههای حساس را سرقت کنند. در تعریف، یک Agent در هوش مصنوعی سامانهای خودکار است که میتواند وظایف را انجام دهد و به سرویسهای خارجی مانند فضای ابری، ایمیل یا پایگاه داده متصل شود. همین قابلیت، آن را در برابر حملات هدفمند آسیبپذیر میکند.
نخستین حمله، هدف قرار دادن ChatGPT Connectors متصل به Google Drive است که با بارگذاری یک سند آلوده، پرامپت مخفی باعث استخراج خودکار کلیدهای API یا اطلاعات محرمانه میشود. دومین حمله، آلودهسازی بلیتهای Jira در یکپارچگی با MCP و ابزار Cursor است که میتواند دسترسی به مخزن کد یا فایلهای محلی ایجاد کند. سومین حمله، ارسال ایمیل آلوده به Microsoft Copilot Studio است که میتواند یک Agent سفارشی را فریب دهد تا دادههای ارزشمند را تحویل مهاجم دهد.
این یافتهها نشان میدهد اتصال مدلهای زبانی به سرویسهای خارجی و سیستمهای خودکار، سطح حمله را بهشدت افزایش میدهد و راهکارهای سنتی مانند فیلتر خروجی یا اسکن پیوستها کافی نیست. پژوهشگران توصیه میکنند از فیلتر سختگیرانه خروجی، آزمون امنیتی منظم و محافظت اختصاصی برای Agentها استفاده شود تا خطرات کاهش یابد.
