کشف رفتارهای سمی در مدل‌های هوش مصنوعی

کمیته رکن چهارم – شرکت OpenAI در تحقیق جدیدی اعلام کرده که به ویژگی‌های خاصی در درون مدل‌های هوش مصنوعی دست یافته که با رفتارهای ناهماهنگ یا پرسوناهای سمی در ارتباط هستند. این یافته‌ها می‌تواند در توسعه مدل‌های ایمن‌تر نقش مؤثری ایفا کند. این تحقیق در تاریخ ۱۸ ژوئن ۲۰۲۵ میلادی منتشر شده است.

به گزارش کمیته رکن چهارم، محققان با بررسی ساختار درونی مدل‌ها و تحلیل داده‌های عددی آن‌ها، موفق شدند الگوهایی را شناسایی کنند که هنگام بروز رفتار نادرست مدل فعال می‌شوند. در برخی موارد، این ویژگی‌ها با پاسخ‌های غیرمسئولانه یا ناهماهنگ از سوی مدل مرتبط بوده‌اند.

پژوهشگران توانسته‌اند با تغییر این ویژگی‌ها، شدت رفتارهای سمی را افزایش یا کاهش دهند. به گفته دن ماسینگ، پژوهشگر OpenAI، این کشف به آن‌ها کمک می‌کند تا ناهماهنگی در مدل‌ها را بهتر شناسایی و کنترل کنند.

تحقیق همچنین نشان می‌دهد که با استفاده از تعداد محدودی از نمونه‌های کد ایمن، می‌توان مدل را مجدداً به پاسخ‌دهی صحیح هدایت کرد. محققان شباهت این الگوهای درونی به نورون‌های مغز انسان را نیز مورد توجه قرار داده‌اند.

این یافته‌ها در ادامه تلاش‌های مشترک شرکت‌هایی مانند Anthropic و DeepMind برای افزایش «تفسیرپذیری» در مدل‌های زبانی انجام شده‌اند. تفسیرپذیری به معنای شفاف‌سازی عملکرد داخلی مدل‌ها و کاهش اثر «جعبه سیاه» در سیستم‌های هوش مصنوعی است.

به گفته تجال پاتوردهان، عضو تیم پژوهشی، برخی از این ویژگی‌ها مستقیماً با لحن پاسخ‌های طعنه‌آمیز یا شخصیت‌های اغراق‌شده مدل ارتباط دارند و قابلیت تنظیم‌پذیری بالایی در جریان آموزش دارند.

اگرچه این تحقیق گامی مهم در فهم بهتر رفتار مدل‌های هوش مصنوعی به شمار می‌رود، اما هنوز مسیر درازی برای درک کامل عملکرد داخلی این فناوری‌ها باقی مانده است.

حملات گسترده به npm؛ بدافزار IronWorm و کرم Miasma توسعه‌دهندگان را هدف گرفتند

سوءاستفاده فعال از یک آسیب‌پذیری بحرانی در افزونه وردپرس Everest Forms Pro

نفوذ به Hola Browser منجر به توزیع مخفیانه ماینر رمزارز شد

هشدار سیسکو درباره یک آسیب‌پذیری روز-صفر فعال در Catalyst SD-WAN Manager

مایکروسافت ابزارهای خط فرمان لینوکس را به‌صورت بومی به ویندوز آورد

گوگل قابلیت شناسایی تماس‌های جعلی مبتنی بر هوش مصنوعی را به اندروید اضافه کرد

آسیب‌پذیری روز-صفر VS Code امکان سرقت توکن‌های GitHub را فراهم می‌کند

آسیب‌پذیری بحرانی افزونه Kirki وردپرس در حملات فعال مورد سوءاستفاده قرار گرفت

OpenAI نسخه بهبودیافته GPT-5.5 را منتشر و مدل‌های قدیمی را بازنشسته می‌کند

حمله جست‌وجوی فراگیر رمز عبور برخی حساب‌های Dashlane را موقتاً مسدود کرد

کشف رفتارهای سمی در مدل‌های هوش مصنوعی

درباره نویسنده

پست های مرتبط

پاسخ دهید

لغو پاسخ

پاسخ دهید

سهم

پاسخ دهید لغو پاسخ

پاسخ دهید

لغو پاسخ