آخرین آزمون بشریت؛ معیاری جدید برای ارزیابی هوش مصنوعی

کمیته رکن چهارم – سازمان Center for AI Safety (CAIS) و شرکت Scale AI از یک معیار ارزیابی جدید با نام Humanity’s Last Exam (آخرین آزمون بشریت) رونمایی کردند که هدف آن سنجش قابلیت‌های پیشرفته‌ترین سیستم‌های هوش مصنوعی است. این آزمون شامل هزاران سوال متنوع از حوزه‌هایی مانند ریاضیات، علوم انسانی و علوم طبیعی است و از فرمت‌های پیچیده‌ای نظیر تصاویر و دیاگرام‌ها برای ایجاد چالش‌های واقعی‌تر استفاده می‌کند.

به گزارش کمیته رکن چهارم، در ارزیابی‌های اولیه، هیچ سیستم هوش مصنوعی برجسته‌ای موفق به کسب نمره‌ای بالاتر از ۱۰ درصد در این آزمون نشد. این نتیجه نشان‌دهنده فاصله چشمگیر مدل‌های هوش مصنوعی موجود با درک جامع و چندوجهی انسانی است و محدودیت‌های آن‌ها را در برابر مسائل پیچیده برجسته می‌کند.

CAIS و Scale AI قصد دارند این معیار را به‌صورت عمومی در اختیار جامعه تحقیقاتی قرار دهند. این اقدام به پژوهشگران امکان می‌دهد تا مدل‌های هوش مصنوعی جدید را آزمایش کرده و پیشرفت‌های این سیستم‌ها را در مواجهه با چالش‌های دشوارتر بررسی کنند.

آخرین آزمون بشریت، نه‌تنها محدودیت‌های فعلی هوش مصنوعی را آشکار می‌کند، بلکه می‌تواند به‌عنوان یک معیار استاندارد برای توسعه سیستم‌هایی استفاده شود که توانایی حل مسائل چندبعدی و پیچیده را دارند. این آزمون فرصتی برای تعریف دقیق‌تر مرزهای هوش مصنوعی و بهبود آن‌ها فراهم می‌کند.

این معیار نشان‌دهنده نیاز به تمرکز بیشتر روی قابلیت‌های تفکر انسانی در توسعه مدل‌های هوش مصنوعی است. آزمون‌های دشوار مانند این، به محققان و توسعه‌دهندگان کمک می‌کند تا سیستم‌هایی طراحی کنند که توانایی بیشتری در ارائه راه‌حل‌های جامع و انسانی داشته باشند.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Red Captcha Characters Below.