کمیته رکن چهارم – مدلهای جدید هوش مصنوعی OpenAI با نامهای o3 و o4-mini، با وجود پیشرفت در زمینههایی مانند ریاضی و کدنویسی، بیش از مدلهای پیشین دچار پدیدهی «توهم» (Hallucination) هستند — یعنی اطلاعات نادرست یا ساختگی تولید میکنند.

به گزارش کمیته رکن چهارم، مدل o3 در ۳۳٪ پرسشهای آزمون PersonQA دچار خطا شد؛ در حالی که این رقم برای مدل o1 تنها ۱۶٪ و برای o3-mini حدود ۱۴.۸٪ بوده است. مدل o4-mini عملکردی ضعیفتر داشته و در ۴۸٪ موارد، پاسخهای نادرست ارائه داده است. این آمار در مقایسه با مدلهایی چون GPT-4o نیز نگرانکننده تلقی میشود.
مسئولان OpenAI میگویند هنوز دلیل دقیق این افزایش توهم مشخص نیست و «تحقیقات بیشتری» برای درک آن لازم است. این مدلها چون پاسخهای بیشتری ارائه میدهند، هم ادعاهای درست بیشتری دارند و هم خطاهای بیشتر.
آزمایشگاه غیرانتفاعی Transluce نیز مواردی از توهم در o3 ثبت کرده، از جمله ادعای اجرای کد خارج از محیط ChatGPT. پژوهشگر این مرکز، نیل چودری، احتمال داده که روش آموزش تقویتی در این مدلها باعث تشدید این خطاها شده باشد.
در حالی که توهم در تولید ایدههای خلاقانه ممکن است مفید باشد، اما در حوزههایی که دقت ضروری است — مانند پزشکی و حقوق — میتواند تبعات جدی داشته باشد. برای نمونه، تیمی در دانشگاه استنفورد با آزمایش مدل o3 در محیط کدنویسی، دریافتند که با وجود قدرت بالا، این مدل اغلب لینکهای جعلی یا شکسته تولید میکند.
یکی از راهحلهای پیشنهادی، اتصال مدلها به جستجوی وب است. OpenAI در مدل GPT-4o با این قابلیت به دقت ۹۰٪ در آزمون SimpleQA دست یافته است. با این حال، این راهکار نیز چالشهایی دارد و مشکل توهم همچنان یکی از اصلیترین دغدغهها در توسعه مدلهای استدلالی باقی مانده است.
