کمیته رکن چهارم – یک دانشآموز دبیرستانی به نام آدی سینگ با راهاندازی وبسایتی به نام MC-Bench روشی خلاقانه برای مقایسه عملکرد مدلهای هوش مصنوعی ارائه داده است: رقابت برای ساخت سازه در دنیای بازی Minecraft.

به گزارش کمیته رکن چهارم، در این وبسایت کاربران یک موضوع (پرامپت) دریافت میکنند، مدلهای هوش مصنوعی سازهای بر اساس آن طراحی میکنند، و کاربران پس از مشاهده نتایج رأی میدهند که کدام سازه بهتر است. پس از رأیگیری، مشخص میشود کدام مدل آن را ساخته بوده است.
آدی سینگ هدف خود را از این کار، سنجش توانایی واقعی مدلها به شکل بصری و قابلفهم برای همه عنوان کرده و میگوید ماینکرفت انتخاب شده چون بیشتر مردم با ظاهر آن آشنا هستند، حتی اگر بازی نکرده باشند.
مدلها باید کدهایی تولید کنند که سازههایی مانند «آدمبرفی» یا «کلبه ساحلی» را در محیط Minecraft بسازد، اما کاربران فقط نتیجه نهایی را میبینند و نیازی به درک فنی کد ندارند.
در حالی که مدلهایی مثل GPT-4 در آزمونهای رسمی عملکرد خوبی دارند، اما در تستهای ساده و غیررسمی، مثل بازی یا تشخیص اشیای ساده، گاهی ضعیفتر از انتظار ظاهر میشوند. این روش جدید تلاش دارد تا تصویری واقعبینانهتر از توانایی مدلها ارائه دهد.
پروژه MC-Bench فعلاً به صورت مستقل و با مشارکت داوطلبان اجرا میشود و اگرچه شرکتهایی مانند OpenAI و گوگل به استفاده از مدلهایشان در این پروژه رضایت دادهاند، اما مستقیماً در آن دخالت ندارند.
این پروژه نوآورانه نشان میدهد که شاید آیندهی ارزیابی هوش مصنوعی، نه در آزمونهای نوشتاری، بلکه در محیطی شبیه بازیهایی مثل Minecraft رقم بخورد.
