کمیته رکن چهارم – بنیاد Arc Prize روز دوشنبه از نسخه دوم آزمون هوش عمومی مصنوعی با عنوان ARC-AGI-2 رونمایی کرد؛ آزمونی چالشبرانگیز که اغلب مدلهای پیشرفته هوش مصنوعی در آن عملکرد ضعیفی داشتهاند.
به گزارش کمیته رکن چهارم، این آزمون که توسط فرانسوا شوله طراحی شده، بر توانایی مدلها در یادگیری و استدلال مستقل تمرکز دارد؛ یعنی حل مسائل جدید بدون تکیه بر دادههای آموزشی یا قدرت محاسباتی صرف.
در این آزمون، مدلهایی مانند o1-pro از OpenAI و R1 از DeepSeek تنها ۱ تا ۱.۳ درصد امتیاز کسب کردهاند. سایر مدلهای مطرح نیز نتایجی نزدیک به همین بازه داشتهاند، در حالی که میانگین پاسخ صحیح شرکتکنندگان انسانی حدود ۶۰ درصد بوده است.
نسخه جدید آزمون با معرفی شاخص «بهرهوری در یادگیری» تلاش میکند از اتکا به قدرت محاسباتی بالا جلوگیری کند. حتی مدل o3 که سال گذشته موفق به شکستن رکورد در ARC-AGI-1 شده بود، در آزمون جدید تنها ۴ درصد امتیاز کسب کرد و برای هر سؤال حدود ۲۰۰ دلار هزینه داشت.
بنیاد Arc Prize همچنین از آغاز رقابت جهانی Arc Prize 2025 خبر داده است؛ رقابتی با هدف رسیدن به دقت ۸۵ درصدی در آزمون جدید، آن هم با هزینهای بسیار پایینتر. کارشناسان این اقدام را گامی مهم در راستای سنجش واقعی قابلیتهای هوش عمومی مصنوعی میدانند.