مدل‌های هوش مصنوعی در آزمون شوله شکست خوردند

فروردین ۵, ۱۴۰۴ نوشتهٔ nastaran بدون نظر

کمیته رکن چهارم – بنیاد Arc Prize روز دوشنبه از نسخه دوم آزمون هوش عمومی مصنوعی با عنوان ARC-AGI-2 رونمایی کرد؛ آزمونی چالش‌برانگیز که اغلب مدل‌های پیشرفته هوش مصنوعی در آن عملکرد ضعیفی داشته‌اند.

به گزارش کمیته رکن چهارم، این آزمون که توسط فرانسوا شوله طراحی شده، بر توانایی مدل‌ها در یادگیری و استدلال مستقل تمرکز دارد؛ یعنی حل مسائل جدید بدون تکیه بر داده‌های آموزشی یا قدرت محاسباتی صرف.

در این آزمون، مدل‌هایی مانند o1-pro از OpenAI و R1 از DeepSeek تنها ۱ تا ۱.۳ درصد امتیاز کسب کرده‌اند. سایر مدل‌های مطرح نیز نتایجی نزدیک به همین بازه داشته‌اند، در حالی که میانگین پاسخ صحیح شرکت‌کنندگان انسانی حدود ۶۰ درصد بوده است.

نسخه جدید آزمون با معرفی شاخص «بهره‌وری در یادگیری» تلاش می‌کند از اتکا به قدرت محاسباتی بالا جلوگیری کند. حتی مدل o3 که سال گذشته موفق به شکستن رکورد در ARC-AGI-1 شده بود، در آزمون جدید تنها ۴ درصد امتیاز کسب کرد و برای هر سؤال حدود ۲۰۰ دلار هزینه داشت.

بنیاد Arc Prize همچنین از آغاز رقابت جهانی Arc Prize 2025 خبر داده است؛ رقابتی با هدف رسیدن به دقت ۸۵ درصدی در آزمون جدید، آن هم با هزینه‌ای بسیار پایین‌تر. کارشناسان این اقدام را گامی مهم در راستای سنجش واقعی قابلیت‌های هوش عمومی مصنوعی می‌دانند.

مطالب مرتبط

هزاران مخزن جعلی GitHub کاربران و عامل‌های هوش مصنوعی را هدف گرفتند

حملات گسترده به وردپرس با دو آسیب‌پذیری بحرانی آغاز شد

باج‌افزار جدید ENCFORGE زیرساخت‌های هوش مصنوعی را هدف قرار داد

دیدگاه خود را بنویسید لغو پاسخ