تفاوت نسخه‌ها در مدل AI متا

فروردین ۱۸, ۱۴۰۴ نوشتهٔ nastaran بدون نظر

کمیته رکن چهارم – پژوهشگران هوش مصنوعی نسبت به رتبه دوم مدل Maverick متا در پلتفرم LM Arena ابراز نگرانی کرده‌اند؛ زیرا مشخص شده نسخه‌ای که در این بنچمارک استفاده شده، نسخه‌ای مکالمه‌محور و متفاوت از نسخه عمومی ارائه‌شده برای توسعه‌دهندگان است.

به گزارش کمیته رکن چهارم، مدل Maverick که یکی از مدل‌های پرچم‌دار Llama 4 متا است، در رتبه‌بندی انسانی LM Arena جایگاه دوم را کسب کرده است. اما بررسی‌ها نشان می‌دهد این رتبه با نسخه‌ای از مدل ثبت شده که برای بهینه‌سازی مکالمه طراحی شده بود و نه نسخه عمومی که کاربران می‌توانند دریافت و استفاده کنند.

این مسئله موجب واکنش برخی پژوهشگران در پلتفرم X شده که با اشاره به تفاوت‌های عملکردی دو نسخه، استفاده از مدل شخصی‌سازی‌شده در بنچمارک بدون اعلام شفاف را گمراه‌کننده توصیف کرده‌اند. نمودارهای رسمی وب‌سایت Llama نیز این تفاوت را تأیید کرده‌اند.

کارشناسان می‌گویند تفاوت‌هایی مانند استفاده مکرر از ایموجی یا پاسخ‌های بسیار طولانی در نسخه بنچمارک نشان‌دهنده بهینه‌سازی خاص برای کسب نتایج بهتر است. این اقدام، اعتماد به ارزیابی‌های بنچمارکی مانند LM Arena را زیر سؤال می‌برد و ممکن است توسعه‌دهندگان را در انتخاب صحیح مدل‌ها دچار خطا کند. درخواست‌هایی برای شفاف‌سازی از سوی متا و تیم Chatbot Arena مطرح شده اما تاکنون پاسخی رسمی ارائه نشده است.

Chatbot Arena Llama 4 LM Arena Maverick ارزیاب انسانی ارزیابی هوش مصنوعی بنچمارک تفاوت نسخه‌ها رتبه‌بندی مدل‌ها شفافیت در ارزیابی عملکرد مدل متا مدل بهینه‌سازی‌شده مقایسه مدل‌ها نسخه عمومی نسخه مکالمه‌محور نقد پژوهشگران هوش مصنوعی‌

مطالب مرتبط

بسته جعلی NuGet برای دست‌کاری نتایج بازی Digitain شناسایی شد

OpenAI نقش مدل‌های خود در حمله به Hugging Face را تأیید کرد

آسیب‌پذیری Kiro اجرای کد مخرب را بدون تأیید کاربر ممکن می‌کرد

دیدگاه خود را بنویسید لغو پاسخ