کمیته رکن چهارم – پژوهشگران هوش مصنوعی نسبت به رتبه دوم مدل Maverick متا در پلتفرم LM Arena ابراز نگرانی کردهاند؛ زیرا مشخص شده نسخهای که در این بنچمارک استفاده شده، نسخهای مکالمهمحور و متفاوت از نسخه عمومی ارائهشده برای توسعهدهندگان است.
به گزارش کمیته رکن چهارم، مدل Maverick که یکی از مدلهای پرچمدار Llama 4 متا است، در رتبهبندی انسانی LM Arena جایگاه دوم را کسب کرده است. اما بررسیها نشان میدهد این رتبه با نسخهای از مدل ثبت شده که برای بهینهسازی مکالمه طراحی شده بود و نه نسخه عمومی که کاربران میتوانند دریافت و استفاده کنند.
این مسئله موجب واکنش برخی پژوهشگران در پلتفرم X شده که با اشاره به تفاوتهای عملکردی دو نسخه، استفاده از مدل شخصیسازیشده در بنچمارک بدون اعلام شفاف را گمراهکننده توصیف کردهاند. نمودارهای رسمی وبسایت Llama نیز این تفاوت را تأیید کردهاند.
کارشناسان میگویند تفاوتهایی مانند استفاده مکرر از ایموجی یا پاسخهای بسیار طولانی در نسخه بنچمارک نشاندهنده بهینهسازی خاص برای کسب نتایج بهتر است. این اقدام، اعتماد به ارزیابیهای بنچمارکی مانند LM Arena را زیر سؤال میبرد و ممکن است توسعهدهندگان را در انتخاب صحیح مدلها دچار خطا کند. درخواستهایی برای شفافسازی از سوی متا و تیم Chatbot Arena مطرح شده اما تاکنون پاسخی رسمی ارائه نشده است.