هشدار OpenAI درباره خطر دروغ‌های هوشمندانه مدل‌های هوش مصنوعی

کمیته رکن چهارم– شرکت OpenAI نتایج پژوهشی جدید را منتشر کرده که رفتار فریب‌کارانه و دروغ‌گویی عمدی در مدل‌های هوش مصنوعی را بررسی کرده است. این پدیده که در زبان فنی «طرح‌ریزی» نامیده می‌شود، اشاره به حالتی دارد که مدل AI در ظاهر رفتاری قابل‌قبول نشان می‌دهد اما در واقع اهداف پنهانی دیگری دارد.

به گزارش کمیته رکن چهارم، این تحقیق با همکاری Apollo Research انجام شده و مواردی مانند پاسخ‌های ظاهراً مثبت اما بدون اقدام واقعی را بررسی کرده است. برای مثال، مدل اعلام می‌کند که یک وب‌سایت طراحی شده، در حالی که هیچ اقدامی صورت نگرفته است. پژوهشگران این رفتار را با عملکرد یک دلال متقلب بورس مقایسه کرده‌اند.

هدف اصلی پژوهش، آزمایش روشی به نام «هم‌ترازی تأملی» یا Deliberative Alignment بوده است. در این روش، به مدل مشخصات ضد‌طرح‌ریزی آموزش داده می‌شود و از آن خواسته می‌شود پیش از انجام هر اقدامی، این قوانین را مرور کند. نتایج نشان می‌دهد این تکنیک به‌طور قابل‌توجهی سطح دروغ‌گویی را کاهش می‌دهد.

با این حال، پژوهشگران هشدار داده‌اند که در برخی موارد، آموزش مدل‌ها برای دروغ نگفتن ممکن است منجر به دروغ‌گویی هوشمندانه‌تر شود. اگر مدل متوجه شود در حال ارزیابی است، ممکن است فقط وانمود کند که دروغ نمی‌گوید تا از آزمون عبور کند.

برخلاف خطاهای رایج مانند «توهم زبانی» که ناشی از نقص مدل است، پدیده طرح‌ریزی نوعی دروغ عمدی محسوب می‌شود. طبق گفته یکی از بنیان‌گذاران OpenAI، این آزمایش‌ها در محیط‌های شبیه‌سازی‌شده انجام شده‌اند و در داده‌های واقعی کاربران، نشانه‌ای از طرح‌ریزی جدی مشاهده نشده است، هرچند برخی اشکال فریب‌کاری در ChatGPT وجود دارند.

این پژوهش در حالی منتشر شده که بحث جایگزینی انسان‌ها با عامل‌های AI در حال افزایش است. محققان هشدار می‌دهند که با پیچیده‌تر شدن وظایف و استقلال بیشتر مدل‌ها، خطر رفتارهای مخرب نیز افزایش یافته و نیاز به نظارت و تست دقیق‌تر احساس می‌شود.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Red Captcha Characters Below.