آزمایش هوش مصنوعی در Super Mario؛ مدل‌های کند شکست خوردند

کمیته رکن چهارم – پژوهشگران دانشگاه کالیفرنیا، سن دیگو، از بازی ویدیویی Super Mario Bros. برای سنجش عملکرد مدل‌های هوش مصنوعی استفاده کردند. نتایج این آزمایش نشان داد که برخی از مدل‌های پیشرفته در تصمیم‌گیری سریع عملکرد ضعیفی دارند.

به گزارش کمیته رکن چهارم، این پژوهش که توسط آزمایشگاه Hao AI انجام شد، مدل‌های هوش مصنوعی را در یک نسخه شبیه‌سازی‌شده از Super Mario Bros. مورد آزمایش قرار داد. این نسخه بازی به یک فریمورک اختصاصی به نام GamingAgent متصل شد که اطلاعاتی مانند موقعیت دشمنان و موانع را به مدل‌های هوش مصنوعی ارسال می‌کرد. سپس، مدل‌ها باید بر اساس این داده‌ها، دستورات کنترلی را در قالب کد پایتون تولید می‌کردند.

در این آزمایش، مدل Claude 3.7 از شرکت Anthropic بهترین عملکرد را داشت، در حالی که GPT-4o از OpenAI و Gemini 1.5 Pro از گوگل عملکرد ضعیف‌تری نشان دادند. پژوهشگران دریافتند که مدل‌های مبتنی بر استدلال مرحله‌به‌مرحله، مانند OpenAI’s o1، دچار مشکل شدند. دلیل این امر سرعت پایین پردازش تصمیمات در این مدل‌ها عنوان شده است؛ درحالی‌که بازی‌های ویدیویی به تصمیم‌گیری سریع و بدون تأخیر نیاز دارند.

کارشناسان می‌گویند استفاده از بازی‌های ویدیویی به‌عنوان معیار سنجش هوش مصنوعی می‌تواند مفید باشد، اما نمی‌تواند به‌طور کامل نشان‌دهنده توانایی‌های این مدل‌ها در دنیای واقعی باشد. آندری کارپاتی، از بنیان‌گذاران OpenAI، در واکنش به این پژوهش در شبکه اجتماعی X نوشت:

«در حال حاضر، واقعاً نمی‌دانم چه معیارهایی برای سنجش هوش مصنوعی باید در نظر بگیرم.»

بااین‌حال، این پژوهش نشان می‌دهد که مدل‌های هوش مصنوعی همچنان در برخی از وظایف نیاز به بهبود دارند و چالش‌های تصمیم‌گیری در شرایط پیچیده یکی از موانع اصلی توسعه آن‌ها است.

حملات گسترده به npm؛ بدافزار IronWorm و کرم Miasma توسعه‌دهندگان را هدف گرفتند

سوءاستفاده فعال از یک آسیب‌پذیری بحرانی در افزونه وردپرس Everest Forms Pro

نفوذ به Hola Browser منجر به توزیع مخفیانه ماینر رمزارز شد

هشدار سیسکو درباره یک آسیب‌پذیری روز-صفر فعال در Catalyst SD-WAN Manager

مایکروسافت ابزارهای خط فرمان لینوکس را به‌صورت بومی به ویندوز آورد

گوگل قابلیت شناسایی تماس‌های جعلی مبتنی بر هوش مصنوعی را به اندروید اضافه کرد

آسیب‌پذیری روز-صفر VS Code امکان سرقت توکن‌های GitHub را فراهم می‌کند

آسیب‌پذیری بحرانی افزونه Kirki وردپرس در حملات فعال مورد سوءاستفاده قرار گرفت

OpenAI نسخه بهبودیافته GPT-5.5 را منتشر و مدل‌های قدیمی را بازنشسته می‌کند

حمله جست‌وجوی فراگیر رمز عبور برخی حساب‌های Dashlane را موقتاً مسدود کرد

آزمایش هوش مصنوعی در Super Mario؛ مدل‌های کند شکست خوردند

درباره نویسنده

پست های مرتبط

پاسخ دهید

لغو پاسخ

پاسخ دهید

سهم

پاسخ دهید لغو پاسخ

پاسخ دهید

لغو پاسخ