کمیته رکن چهارم – یکی از کارکنان OpenAI ادعا کرده که xAI در گزارش بنچمارک مدل Grok 3 اطلاعات گمراهکننده ارائه داده است. در نمودار منتشرشده توسط xAI، عملکرد Grok 3 برتر از مدلهای OpenAI نمایش داده شده اما معیار cons@64 که یک روش استاندارد برای بهبود دقت مدلهاست، حذف شده است. این اقدام باعث شده که عملکرد Grok 3 بهتر از واقعیت به نظر برسد و تصویری غیرواقعی از توانایی این مدل ارائه شود.

به گزارش کمیته رکن چهارم، بنچمارک در هوش مصنوعی به مجموعهای از آزمونها و معیارها گفته میشود که برای ارزیابی و مقایسه عملکرد مدلهای مختلف استفاده میشود. cons@64 یک روش ارزیابی است که به مدل اجازه میدهد ۶۴ بار به یک سؤال پاسخ دهد و پاسخی که بیشتر تکرار شده را بهعنوان نتیجه نهایی انتخاب کند. این روش معمولاً دقت مدلها را افزایش میدهد، زیرا به آنها فرصت بیشتری برای اصلاح پاسخهایشان داده میشود. با حذف این معیار، مدلهای دیگر ممکن است ضعیفتر از Grok 3 به نظر برسند، درحالیکه در واقعیت چنین نیست. اگر این معیار لحاظ شود، Grok 3 عملکرد پایینتری نسبت به مدل o3-mini-high OpenAI خواهد داشت.
مدل Grok 3 Reasoning Beta حتی از مدل o1 OpenAI در سطح متوسط عملکرد ضعیفتری داشته است. بااینحال، شرکت xAI این مدل را باهوشترین هوش مصنوعی دنیا معرفی کرده که باعث ایجاد شک و تردید در بین کارشناسان شده است.
ایگور بابوشکین، بنیانگذار xAI، از این ادعا دفاع کرده و گفته که OpenAI هم در گذشته برای نشان دادن برتری مدلهایش، معیارهای خاصی را انتخاب کرده است. او تأکید دارد که شرکتهای هوش مصنوعی معمولاً برای نمایش قویتر بودن مدلهای خود، از روشهای مقایسهای خاصی استفاده میکنند.
یکی دیگر از چالشهای مهم در مقایسه مدلهای هوش مصنوعی، هزینه پردازشی و منابع محاسباتی موردنیاز برای رسیدن به این نتایج است. مشخص نیست که OpenAI و xAI چه مقدار قدرت پردازشی مصرف کردهاند تا این امتیازات را کسب کنند، درحالیکه این موضوع میتواند تأثیر بسزایی در مقایسه مدلها داشته باشد. به همین دلیل، کارشناسان خواستار شفافیت بیشتر در گزارشهای بنچمارکهای هوش مصنوعی هستند.
در نهایت، xAI دروغ نگفته اما با حذف یک معیار کلیدی، تصویری نادرست از عملکرد Grok 3 ارائه داده است. این اتفاق نشان میدهد که در رقابت بین شرکتهای هوش مصنوعی، دادههای منتشرشده باید با دقت بررسی شوند. حذف یا اضافه کردن معیارهای خاص میتواند باعث ایجاد تصور اشتباه درباره برتری یک مدل نسبت به مدلهای دیگر شود. ماجرای Grok 3 بار دیگر چالش شفافیت در انتشار نتایج بنچمارکهای هوش مصنوعی را برجسته میکند.
