کمیته رکن چهارم – شرکت OpenAI در تحقیق جدیدی اعلام کرده که به ویژگیهای خاصی در درون مدلهای هوش مصنوعی دست یافته که با رفتارهای ناهماهنگ یا پرسوناهای سمی در ارتباط هستند. این یافتهها میتواند در توسعه مدلهای ایمنتر نقش مؤثری ایفا کند. این تحقیق در تاریخ ۱۸ ژوئن ۲۰۲۵ میلادی منتشر شده است.

به گزارش کمیته رکن چهارم، محققان با بررسی ساختار درونی مدلها و تحلیل دادههای عددی آنها، موفق شدند الگوهایی را شناسایی کنند که هنگام بروز رفتار نادرست مدل فعال میشوند. در برخی موارد، این ویژگیها با پاسخهای غیرمسئولانه یا ناهماهنگ از سوی مدل مرتبط بودهاند.
پژوهشگران توانستهاند با تغییر این ویژگیها، شدت رفتارهای سمی را افزایش یا کاهش دهند. به گفته دن ماسینگ، پژوهشگر OpenAI، این کشف به آنها کمک میکند تا ناهماهنگی در مدلها را بهتر شناسایی و کنترل کنند.
تحقیق همچنین نشان میدهد که با استفاده از تعداد محدودی از نمونههای کد ایمن، میتوان مدل را مجدداً به پاسخدهی صحیح هدایت کرد. محققان شباهت این الگوهای درونی به نورونهای مغز انسان را نیز مورد توجه قرار دادهاند.
این یافتهها در ادامه تلاشهای مشترک شرکتهایی مانند Anthropic و DeepMind برای افزایش «تفسیرپذیری» در مدلهای زبانی انجام شدهاند. تفسیرپذیری به معنای شفافسازی عملکرد داخلی مدلها و کاهش اثر «جعبه سیاه» در سیستمهای هوش مصنوعی است.
به گفته تجال پاتوردهان، عضو تیم پژوهشی، برخی از این ویژگیها مستقیماً با لحن پاسخهای طعنهآمیز یا شخصیتهای اغراقشده مدل ارتباط دارند و قابلیت تنظیمپذیری بالایی در جریان آموزش دارند.
اگرچه این تحقیق گامی مهم در فهم بهتر رفتار مدلهای هوش مصنوعی به شمار میرود، اما هنوز مسیر درازی برای درک کامل عملکرد داخلی این فناوریها باقی مانده است.
