کمیته رکن چهارم– نخستین نتایج چالش جدید هوش مصنوعی در حوزه برنامهنویسی، موسوم به K Prize، منتشر شد و نشان میدهد که مدلهای فعلی فاصله زیادی تا استانداردهای مطلوب دارند. برنده این مرحله، ادواردو روچا د آندراده از برزیل، تنها با پاسخدهی صحیح به ۷.۵ درصد سوالات موفق به دریافت جایزه شد.

به گزارش کمیته رکن چهارم، این چالش توسط مؤسسه Laude Institute و با ابتکار اندی کنوینسکی، از بنیانگذاران Databricks و Perplexity، برگزار شده و هدف آن ارزیابی عملکرد واقعی مدلهای هوش مصنوعی در حل مسائل واقعی کدنویسی در گیتهاب است. بر خلاف آزمونهایی مانند SWE-Bench که به دلیل مجموعه ثابت سوالات احتمال آموزشپذیری دارند، K Prize تنها از مسائل جدید پس از مهلت ارسال مدلها استفاده میکند تا از هرگونه آلودگی دادهای جلوگیری شود.
در این رقابت، برخلاف SWE-Bench که برخی مدلها تا ۷۵٪ موفقیت داشتند، هیچیک از مدلها در K Prize به بیش از ۷.۵٪ دست نیافتند. برگزارکنندگان امیدوارند با تکرار دورهای این چالش، معیار بهتری برای سنجش توان واقعی مدلها فراهم شود.
هدف اصلی این رقابت، نه فقط تعریف یک معیار جدید، بلکه ایجاد آگاهی درباره اغراق در توانایی مدلهای کنونی است. کنوینسکی تأکید میکند اگر حتی یک مدل قدرتمند نیز نتواند به امتیازی فراتر از ۱۰٪ برسد، نباید انتظار داشت که این ابزارها جایگزین کامل برنامهنویسان انسانی شوند.
او وعده داده که یک میلیون دلار جایزه به اولین مدل متنباز با عملکرد بالای ۹۰ درصد در این آزمون اختصاص خواهد یافت؛ هدفی که بهنظر میرسد هنوز بسیار دور از دسترس است.
