هوش مصنوعی در آزمون برنامه‌نویسی K Prize ناکام ماند

کمیته رکن چهارم– نخستین نتایج چالش جدید هوش مصنوعی در حوزه برنامه‌نویسی، موسوم به K Prize، منتشر شد و نشان می‌دهد که مدل‌های فعلی فاصله زیادی تا استانداردهای مطلوب دارند. برنده این مرحله، ادواردو روچا د آندراده از برزیل، تنها با پاسخ‌دهی صحیح به ۷.۵ درصد سوالات موفق به دریافت جایزه شد.

به گزارش کمیته رکن چهارم، این چالش توسط مؤسسه Laude Institute و با ابتکار اندی کنوینسکی، از بنیان‌گذاران Databricks و Perplexity، برگزار شده و هدف آن ارزیابی عملکرد واقعی مدل‌های هوش مصنوعی در حل مسائل واقعی کدنویسی در گیت‌هاب است. بر خلاف آزمون‌هایی مانند SWE-Bench که به دلیل مجموعه ثابت سوالات احتمال آموزش‌پذیری دارند، K Prize تنها از مسائل جدید پس از مهلت ارسال مدل‌ها استفاده می‌کند تا از هرگونه آلودگی داده‌ای جلوگیری شود.

در این رقابت، برخلاف SWE-Bench که برخی مدل‌ها تا ۷۵٪ موفقیت داشتند، هیچ‌یک از مدل‌ها در K Prize به بیش از ۷.۵٪ دست نیافتند. برگزارکنندگان امیدوارند با تکرار دوره‌ای این چالش، معیار بهتری برای سنجش توان واقعی مدل‌ها فراهم شود.

هدف اصلی این رقابت، نه فقط تعریف یک معیار جدید، بلکه ایجاد آگاهی درباره اغراق در توانایی مدل‌های کنونی است. کنوینسکی تأکید می‌کند اگر حتی یک مدل قدرتمند نیز نتواند به امتیازی فراتر از ۱۰٪ برسد، نباید انتظار داشت که این ابزارها جایگزین کامل برنامه‌نویسان انسانی شوند.

او وعده داده که یک میلیون دلار جایزه به اولین مدل متن‌باز با عملکرد بالای ۹۰ درصد در این آزمون اختصاص خواهد یافت؛ هدفی که به‌نظر می‌رسد هنوز بسیار دور از دسترس است.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Red Captcha Characters Below.