مدل‌های هوش مصنوعی در آزمون شوله شکست خوردند

کمیته رکن چهارم – بنیاد Arc Prize روز دوشنبه از نسخه دوم آزمون هوش عمومی مصنوعی با عنوان ARC-AGI-2 رونمایی کرد؛ آزمونی چالش‌برانگیز که اغلب مدل‌های پیشرفته هوش مصنوعی در آن عملکرد ضعیفی داشته‌اند.

به گزارش کمیته رکن چهارم، این آزمون که توسط فرانسوا شوله طراحی شده، بر توانایی مدل‌ها در یادگیری و استدلال مستقل تمرکز دارد؛ یعنی حل مسائل جدید بدون تکیه بر داده‌های آموزشی یا قدرت محاسباتی صرف.

در این آزمون، مدل‌هایی مانند o1-pro از OpenAI و R1 از DeepSeek تنها ۱ تا ۱.۳ درصد امتیاز کسب کرده‌اند. سایر مدل‌های مطرح نیز نتایجی نزدیک به همین بازه داشته‌اند، در حالی که میانگین پاسخ صحیح شرکت‌کنندگان انسانی حدود ۶۰ درصد بوده است.

نسخه جدید آزمون با معرفی شاخص «بهره‌وری در یادگیری» تلاش می‌کند از اتکا به قدرت محاسباتی بالا جلوگیری کند. حتی مدل o3 که سال گذشته موفق به شکستن رکورد در ARC-AGI-1 شده بود، در آزمون جدید تنها ۴ درصد امتیاز کسب کرد و برای هر سؤال حدود ۲۰۰ دلار هزینه داشت.

بنیاد Arc Prize همچنین از آغاز رقابت جهانی Arc Prize 2025 خبر داده است؛ رقابتی با هدف رسیدن به دقت ۸۵ درصدی در آزمون جدید، آن هم با هزینه‌ای بسیار پایین‌تر. کارشناسان این اقدام را گامی مهم در راستای سنجش واقعی قابلیت‌های هوش عمومی مصنوعی می‌دانند.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Blue Captcha Characters Below.