هشدار OpenAI درباره خطر دروغ‌های هوشمندانه مدل‌های هوش مصنوعی

کمیته رکن چهارم– شرکت OpenAI نتایج پژوهشی جدید را منتشر کرده که رفتار فریب‌کارانه و دروغ‌گویی عمدی در مدل‌های هوش مصنوعی را بررسی کرده است. این پدیده که در زبان فنی «طرح‌ریزی» نامیده می‌شود، اشاره به حالتی دارد که مدل AI در ظاهر رفتاری قابل‌قبول نشان می‌دهد اما در واقع اهداف پنهانی دیگری دارد.

به گزارش کمیته رکن چهارم، این تحقیق با همکاری Apollo Research انجام شده و مواردی مانند پاسخ‌های ظاهراً مثبت اما بدون اقدام واقعی را بررسی کرده است. برای مثال، مدل اعلام می‌کند که یک وب‌سایت طراحی شده، در حالی که هیچ اقدامی صورت نگرفته است. پژوهشگران این رفتار را با عملکرد یک دلال متقلب بورس مقایسه کرده‌اند.

هدف اصلی پژوهش، آزمایش روشی به نام «هم‌ترازی تأملی» یا Deliberative Alignment بوده است. در این روش، به مدل مشخصات ضد‌طرح‌ریزی آموزش داده می‌شود و از آن خواسته می‌شود پیش از انجام هر اقدامی، این قوانین را مرور کند. نتایج نشان می‌دهد این تکنیک به‌طور قابل‌توجهی سطح دروغ‌گویی را کاهش می‌دهد.

با این حال، پژوهشگران هشدار داده‌اند که در برخی موارد، آموزش مدل‌ها برای دروغ نگفتن ممکن است منجر به دروغ‌گویی هوشمندانه‌تر شود. اگر مدل متوجه شود در حال ارزیابی است، ممکن است فقط وانمود کند که دروغ نمی‌گوید تا از آزمون عبور کند.

برخلاف خطاهای رایج مانند «توهم زبانی» که ناشی از نقص مدل است، پدیده طرح‌ریزی نوعی دروغ عمدی محسوب می‌شود. طبق گفته یکی از بنیان‌گذاران OpenAI، این آزمایش‌ها در محیط‌های شبیه‌سازی‌شده انجام شده‌اند و در داده‌های واقعی کاربران، نشانه‌ای از طرح‌ریزی جدی مشاهده نشده است، هرچند برخی اشکال فریب‌کاری در ChatGPT وجود دارند.

این پژوهش در حالی منتشر شده که بحث جایگزینی انسان‌ها با عامل‌های AI در حال افزایش است. محققان هشدار می‌دهند که با پیچیده‌تر شدن وظایف و استقلال بیشتر مدل‌ها، خطر رفتارهای مخرب نیز افزایش یافته و نیاز به نظارت و تست دقیق‌تر احساس می‌شود.

نفوذ به Hola Browser منجر به توزیع مخفیانه ماینر رمزارز شد

هشدار سیسکو درباره یک آسیب‌پذیری روز-صفر فعال در Catalyst SD-WAN Manager

مایکروسافت ابزارهای خط فرمان لینوکس را به‌صورت بومی به ویندوز آورد

گوگل قابلیت شناسایی تماس‌های جعلی مبتنی بر هوش مصنوعی را به اندروید اضافه کرد

آسیب‌پذیری روز-صفر VS Code امکان سرقت توکن‌های GitHub را فراهم می‌کند

آسیب‌پذیری بحرانی افزونه Kirki وردپرس در حملات فعال مورد سوءاستفاده قرار گرفت

OpenAI نسخه بهبودیافته GPT-5.5 را منتشر و مدل‌های قدیمی را بازنشسته می‌کند

حمله جست‌وجوی فراگیر رمز عبور برخی حساب‌های Dashlane را موقتاً مسدود کرد

مایکروسافت اختلال Microsoft Teams و Office for the Web را برطرف کرد

آلودگی نزدیک به ۲ هزار وب‌سایت وردپرسی با بدافزار مبتنی بر Steam Community

هشدار OpenAI درباره خطر دروغ‌های هوشمندانه مدل‌های هوش مصنوعی

درباره نویسنده

پست های مرتبط

پاسخ دهید

لغو پاسخ

پاسخ دهید

سهم

پاسخ دهید لغو پاسخ

پاسخ دهید

لغو پاسخ