کمیته رکن چهارم – سازمان Center for AI Safety (CAIS) و شرکت Scale AI از یک معیار ارزیابی جدید با نام Humanity’s Last Exam (آخرین آزمون بشریت) رونمایی کردند که هدف آن سنجش قابلیتهای پیشرفتهترین سیستمهای هوش مصنوعی است. این آزمون شامل هزاران سوال متنوع از حوزههایی مانند ریاضیات، علوم انسانی و علوم طبیعی است و از فرمتهای پیچیدهای نظیر تصاویر و دیاگرامها برای ایجاد چالشهای واقعیتر استفاده میکند.
به گزارش کمیته رکن چهارم، در ارزیابیهای اولیه، هیچ سیستم هوش مصنوعی برجستهای موفق به کسب نمرهای بالاتر از ۱۰ درصد در این آزمون نشد. این نتیجه نشاندهنده فاصله چشمگیر مدلهای هوش مصنوعی موجود با درک جامع و چندوجهی انسانی است و محدودیتهای آنها را در برابر مسائل پیچیده برجسته میکند.
CAIS و Scale AI قصد دارند این معیار را بهصورت عمومی در اختیار جامعه تحقیقاتی قرار دهند. این اقدام به پژوهشگران امکان میدهد تا مدلهای هوش مصنوعی جدید را آزمایش کرده و پیشرفتهای این سیستمها را در مواجهه با چالشهای دشوارتر بررسی کنند.
آخرین آزمون بشریت، نهتنها محدودیتهای فعلی هوش مصنوعی را آشکار میکند، بلکه میتواند بهعنوان یک معیار استاندارد برای توسعه سیستمهایی استفاده شود که توانایی حل مسائل چندبعدی و پیچیده را دارند. این آزمون فرصتی برای تعریف دقیقتر مرزهای هوش مصنوعی و بهبود آنها فراهم میکند.
این معیار نشاندهنده نیاز به تمرکز بیشتر روی قابلیتهای تفکر انسانی در توسعه مدلهای هوش مصنوعی است. آزمونهای دشوار مانند این، به محققان و توسعهدهندگان کمک میکند تا سیستمهایی طراحی کنند که توانایی بیشتری در ارائه راهحلهای جامع و انسانی داشته باشند.