کمیته رکن چهارم – پژوهشگران دانشگاه کالیفرنیا، سن دیگو، از بازی ویدیویی Super Mario Bros. برای سنجش عملکرد مدلهای هوش مصنوعی استفاده کردند. نتایج این آزمایش نشان داد که برخی از مدلهای پیشرفته در تصمیمگیری سریع عملکرد ضعیفی دارند.

به گزارش کمیته رکن چهارم، این پژوهش که توسط آزمایشگاه Hao AI انجام شد، مدلهای هوش مصنوعی را در یک نسخه شبیهسازیشده از Super Mario Bros. مورد آزمایش قرار داد. این نسخه بازی به یک فریمورک اختصاصی به نام GamingAgent متصل شد که اطلاعاتی مانند موقعیت دشمنان و موانع را به مدلهای هوش مصنوعی ارسال میکرد. سپس، مدلها باید بر اساس این دادهها، دستورات کنترلی را در قالب کد پایتون تولید میکردند.
در این آزمایش، مدل Claude 3.7 از شرکت Anthropic بهترین عملکرد را داشت، در حالی که GPT-4o از OpenAI و Gemini 1.5 Pro از گوگل عملکرد ضعیفتری نشان دادند. پژوهشگران دریافتند که مدلهای مبتنی بر استدلال مرحلهبهمرحله، مانند OpenAI’s o1، دچار مشکل شدند. دلیل این امر سرعت پایین پردازش تصمیمات در این مدلها عنوان شده است؛ درحالیکه بازیهای ویدیویی به تصمیمگیری سریع و بدون تأخیر نیاز دارند.
کارشناسان میگویند استفاده از بازیهای ویدیویی بهعنوان معیار سنجش هوش مصنوعی میتواند مفید باشد، اما نمیتواند بهطور کامل نشاندهنده تواناییهای این مدلها در دنیای واقعی باشد. آندری کارپاتی، از بنیانگذاران OpenAI، در واکنش به این پژوهش در شبکه اجتماعی X نوشت:
«در حال حاضر، واقعاً نمیدانم چه معیارهایی برای سنجش هوش مصنوعی باید در نظر بگیرم.»
بااینحال، این پژوهش نشان میدهد که مدلهای هوش مصنوعی همچنان در برخی از وظایف نیاز به بهبود دارند و چالشهای تصمیمگیری در شرایط پیچیده یکی از موانع اصلی توسعه آنها است.
