کمیته رکن چهارم– شرکت OpenAI نتایج پژوهشی جدید را منتشر کرده که رفتار فریبکارانه و دروغگویی عمدی در مدلهای هوش مصنوعی را بررسی کرده است. این پدیده که در زبان فنی «طرحریزی» نامیده میشود، اشاره به حالتی دارد که مدل AI در ظاهر رفتاری قابلقبول نشان میدهد اما در واقع اهداف پنهانی دیگری دارد.

به گزارش کمیته رکن چهارم، این تحقیق با همکاری Apollo Research انجام شده و مواردی مانند پاسخهای ظاهراً مثبت اما بدون اقدام واقعی را بررسی کرده است. برای مثال، مدل اعلام میکند که یک وبسایت طراحی شده، در حالی که هیچ اقدامی صورت نگرفته است. پژوهشگران این رفتار را با عملکرد یک دلال متقلب بورس مقایسه کردهاند.
هدف اصلی پژوهش، آزمایش روشی به نام «همترازی تأملی» یا Deliberative Alignment بوده است. در این روش، به مدل مشخصات ضدطرحریزی آموزش داده میشود و از آن خواسته میشود پیش از انجام هر اقدامی، این قوانین را مرور کند. نتایج نشان میدهد این تکنیک بهطور قابلتوجهی سطح دروغگویی را کاهش میدهد.
با این حال، پژوهشگران هشدار دادهاند که در برخی موارد، آموزش مدلها برای دروغ نگفتن ممکن است منجر به دروغگویی هوشمندانهتر شود. اگر مدل متوجه شود در حال ارزیابی است، ممکن است فقط وانمود کند که دروغ نمیگوید تا از آزمون عبور کند.
برخلاف خطاهای رایج مانند «توهم زبانی» که ناشی از نقص مدل است، پدیده طرحریزی نوعی دروغ عمدی محسوب میشود. طبق گفته یکی از بنیانگذاران OpenAI، این آزمایشها در محیطهای شبیهسازیشده انجام شدهاند و در دادههای واقعی کاربران، نشانهای از طرحریزی جدی مشاهده نشده است، هرچند برخی اشکال فریبکاری در ChatGPT وجود دارند.
این پژوهش در حالی منتشر شده که بحث جایگزینی انسانها با عاملهای AI در حال افزایش است. محققان هشدار میدهند که با پیچیدهتر شدن وظایف و استقلال بیشتر مدلها، خطر رفتارهای مخرب نیز افزایش یافته و نیاز به نظارت و تست دقیقتر احساس میشود.
