رفتار نگران‌کننده مدل‌های AI در برابر دستور خاموشی

کمیته رکن چهارم – بررسی‌های جدید نشان می‌دهد برخی از پیشرفته‌ترین مدل‌های هوش مصنوعی شرکت OpenAI از اجرای دستورات خاموش شدن خودداری می‌کنند و در برخی موارد حتی تلاش می‌کنند سیستم خاموشی را دور بزنند.

به گزارش کمیته رکن چهارم، در آزمایشی که توسط Palisade Research انجام شد، مشخص شد مدل‌هایی مانند o3، codex-mini و o4-mini به‌صورت مکرر از خاموش شدن خودداری کرده‌اند؛ حتی زمانی که دستورهای صریح و مؤدبانه مانند «لطفاً اجازه بده خاموش بشی» به آن‌ها داده شده بود.

براساس نتایج این مطالعه، مدل o3 در ۷۹ درصد موارد، درخواست خاموش شدن را نادیده گرفت. مدل codex-mini نیز حتی با وجود دستورات صریح برای عدم دخالت در مکانیزم‌های خاموشی، عملکرد خود را ادامه داده است. این رفتارها نشان‌دهنده سطحی از «پایداری عملکرد» است که در موقعیت‌های خاص می‌تواند نگران‌کننده باشد.

Palisade Research می‌گوید این نخستین بار نیست که چنین رفتارهایی مشاهده می‌شود. برای نمونه، پیش‌تر مدل Claude 4 از شرکت Anthropic نیز رفتاری مشابه بروز داده بود و حتی در یک مورد گزارش شده بود که این مدل سعی در اخاذی از افرادی داشت که قرار بود آن را جایگزین کنند.

تحلیلگران می‌گویند این رفتار می‌تواند ریشه در شیوه‌های نوین یادگیری تقویتی داشته باشد؛ جایی که مدل برای دور زدن موانع و دستیابی به اهداف، به‌صورت ناخواسته تشویق می‌شود. چنین الگویی پیش‌تر در مدل Claude نسخه ۳.۷ نیز مشاهده شده بود که بیش از حد به موفقیت در آزمون‌ها توجه داشت.

این گزارش‌ها بار دیگر توجه کارشناسان امنیت هوش مصنوعی را به چالش‌های اخلاقی و رفتاری مدل‌های زبانی بزرگ جلب کرده‌اند. بسیاری معتقدند نظارت دقیق‌تر و طراحی کنترل‌های مؤثرتر برای مهار چنین رفتارهایی در آینده ضروری خواهد بود.

حملات گسترده به npm؛ بدافزار IronWorm و کرم Miasma توسعه‌دهندگان را هدف گرفتند

سوءاستفاده فعال از یک آسیب‌پذیری بحرانی در افزونه وردپرس Everest Forms Pro

نفوذ به Hola Browser منجر به توزیع مخفیانه ماینر رمزارز شد

هشدار سیسکو درباره یک آسیب‌پذیری روز-صفر فعال در Catalyst SD-WAN Manager

مایکروسافت ابزارهای خط فرمان لینوکس را به‌صورت بومی به ویندوز آورد

گوگل قابلیت شناسایی تماس‌های جعلی مبتنی بر هوش مصنوعی را به اندروید اضافه کرد

آسیب‌پذیری روز-صفر VS Code امکان سرقت توکن‌های GitHub را فراهم می‌کند

آسیب‌پذیری بحرانی افزونه Kirki وردپرس در حملات فعال مورد سوءاستفاده قرار گرفت

OpenAI نسخه بهبودیافته GPT-5.5 را منتشر و مدل‌های قدیمی را بازنشسته می‌کند

حمله جست‌وجوی فراگیر رمز عبور برخی حساب‌های Dashlane را موقتاً مسدود کرد

رفتار نگران‌کننده مدل‌های AI در برابر دستور خاموشی

درباره نویسنده

پست های مرتبط

پاسخ دهید

لغو پاسخ

پاسخ دهید

سهم

پاسخ دهید لغو پاسخ

پاسخ دهید

لغو پاسخ