کشف رفتارهای سمی در مدل‌های هوش مصنوعی

کمیته رکن چهارم – شرکت OpenAI در تحقیق جدیدی اعلام کرده که به ویژگی‌های خاصی در درون مدل‌های هوش مصنوعی دست یافته که با رفتارهای ناهماهنگ یا پرسوناهای سمی در ارتباط هستند. این یافته‌ها می‌تواند در توسعه مدل‌های ایمن‌تر نقش مؤثری ایفا کند. این تحقیق در تاریخ ۱۸ ژوئن ۲۰۲۵ میلادی منتشر شده است.

به گزارش کمیته رکن چهارم، محققان با بررسی ساختار درونی مدل‌ها و تحلیل داده‌های عددی آن‌ها، موفق شدند الگوهایی را شناسایی کنند که هنگام بروز رفتار نادرست مدل فعال می‌شوند. در برخی موارد، این ویژگی‌ها با پاسخ‌های غیرمسئولانه یا ناهماهنگ از سوی مدل مرتبط بوده‌اند.

پژوهشگران توانسته‌اند با تغییر این ویژگی‌ها، شدت رفتارهای سمی را افزایش یا کاهش دهند. به گفته دن ماسینگ، پژوهشگر OpenAI، این کشف به آن‌ها کمک می‌کند تا ناهماهنگی در مدل‌ها را بهتر شناسایی و کنترل کنند.

تحقیق همچنین نشان می‌دهد که با استفاده از تعداد محدودی از نمونه‌های کد ایمن، می‌توان مدل را مجدداً به پاسخ‌دهی صحیح هدایت کرد. محققان شباهت این الگوهای درونی به نورون‌های مغز انسان را نیز مورد توجه قرار داده‌اند.

این یافته‌ها در ادامه تلاش‌های مشترک شرکت‌هایی مانند Anthropic و DeepMind برای افزایش «تفسیرپذیری» در مدل‌های زبانی انجام شده‌اند. تفسیرپذیری به معنای شفاف‌سازی عملکرد داخلی مدل‌ها و کاهش اثر «جعبه سیاه» در سیستم‌های هوش مصنوعی است.

به گفته تجال پاتوردهان، عضو تیم پژوهشی، برخی از این ویژگی‌ها مستقیماً با لحن پاسخ‌های طعنه‌آمیز یا شخصیت‌های اغراق‌شده مدل ارتباط دارند و قابلیت تنظیم‌پذیری بالایی در جریان آموزش دارند.

اگرچه این تحقیق گامی مهم در فهم بهتر رفتار مدل‌های هوش مصنوعی به شمار می‌رود، اما هنوز مسیر درازی برای درک کامل عملکرد داخلی این فناوری‌ها باقی مانده است.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Red Captcha Characters Below.