آیا xAI در مورد برتری Grok 3 اغراق کرده است؟

کمیته رکن چهارم – یکی از کارکنان OpenAI ادعا کرده که xAI در گزارش بنچمارک مدل Grok 3 اطلاعات گمراه‌کننده ارائه داده است. در نمودار منتشرشده توسط xAI، عملکرد Grok 3 برتر از مدل‌های OpenAI نمایش داده شده اما معیار cons@64 که یک روش استاندارد برای بهبود دقت مدل‌هاست، حذف شده است. این اقدام باعث شده که عملکرد Grok 3 بهتر از واقعیت به نظر برسد و تصویری غیرواقعی از توانایی این مدل ارائه شود.

به گزارش کمیته رکن چهارم، بنچمارک در هوش مصنوعی به مجموعه‌ای از آزمون‌ها و معیارها گفته می‌شود که برای ارزیابی و مقایسه عملکرد مدل‌های مختلف استفاده می‌شود. cons@64 یک روش ارزیابی است که به مدل اجازه می‌دهد ۶۴ بار به یک سؤال پاسخ دهد و پاسخی که بیشتر تکرار شده را به‌عنوان نتیجه نهایی انتخاب کند. این روش معمولاً دقت مدل‌ها را افزایش می‌دهد، زیرا به آن‌ها فرصت بیشتری برای اصلاح پاسخ‌هایشان داده می‌شود. با حذف این معیار، مدل‌های دیگر ممکن است ضعیف‌تر از Grok 3 به نظر برسند، درحالی‌که در واقعیت چنین نیست. اگر این معیار لحاظ شود، Grok 3 عملکرد پایین‌تری نسبت به مدل o3-mini-high OpenAI خواهد داشت.

مدل Grok 3 Reasoning Beta حتی از مدل o1 OpenAI در سطح متوسط عملکرد ضعیف‌تری داشته است. بااین‌حال، شرکت xAI این مدل را باهوش‌ترین هوش مصنوعی دنیا معرفی کرده که باعث ایجاد شک و تردید در بین کارشناسان شده است.

ایگور بابوشکین، بنیان‌گذار xAI، از این ادعا دفاع کرده و گفته که OpenAI هم در گذشته برای نشان دادن برتری مدل‌هایش، معیارهای خاصی را انتخاب کرده است. او تأکید دارد که شرکت‌های هوش مصنوعی معمولاً برای نمایش قوی‌تر بودن مدل‌های خود، از روش‌های مقایسه‌ای خاصی استفاده می‌کنند.

یکی دیگر از چالش‌های مهم در مقایسه مدل‌های هوش مصنوعی، هزینه پردازشی و منابع محاسباتی موردنیاز برای رسیدن به این نتایج است. مشخص نیست که OpenAI و xAI چه مقدار قدرت پردازشی مصرف کرده‌اند تا این امتیازات را کسب کنند، درحالی‌که این موضوع می‌تواند تأثیر بسزایی در مقایسه مدل‌ها داشته باشد. به همین دلیل، کارشناسان خواستار شفافیت بیشتر در گزارش‌های بنچمارک‌های هوش مصنوعی هستند.

در نهایت، xAI دروغ نگفته اما با حذف یک معیار کلیدی، تصویری نادرست از عملکرد Grok 3 ارائه داده است. این اتفاق نشان می‌دهد که در رقابت بین شرکت‌های هوش مصنوعی، داده‌های منتشرشده باید با دقت بررسی شوند. حذف یا اضافه کردن معیارهای خاص می‌تواند باعث ایجاد تصور اشتباه درباره برتری یک مدل نسبت به مدل‌های دیگر شود. ماجرای Grok 3 بار دیگر چالش شفافیت در انتشار نتایج بنچمارک‌های هوش مصنوعی را برجسته می‌کند.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Red Captcha Characters Below.