کمیته رکن چهارم – کارشناسان دانشگاهی و فعالان حوزه هوش مصنوعی هشدار دادهاند که روشهای ارزیابی مبتنی بر مشارکت عمومی، مانند آنچه در پلتفرم Chatbot Arena انجام میشود، از نظر علمی و اخلاقی با ایرادات جدی مواجهاند.

به گزارش کمیته رکن چهارم، پلتفرمهایی مانند Chatbot Arena به کاربران اجازه میدهند تا بین پاسخهای دو مدل ناشناس یکی را انتخاب کنند. اما به گفته امیلی بندر، استاد زبانشناسی دانشگاه واشنگتن، این روشها فاقد اعتبار علمی مشخص هستند و معلوم نیست انتخاب کاربران واقعاً نشاندهنده ترجیح یا کیفیت بالاتر باشد.
برخی کارشناسان مانند اسملاش تکا هادگو، پژوهشگر در DAIR، میگویند که شرکتها از این ارزیابیها برای تبلیغ و بزرگنمایی مدلهای خود استفاده میکنند. او به نمونهای اشاره کرده که متا مدلی را طوری تنظیم کرده بود که در رتبهبندی عملکرد بالایی داشته باشد، اما نسخه نهایی آن ضعیفتر بود.
پیشنهادها شامل این است که ارزیابیها باید تخصصیتر، پویا، و وابسته به حوزه کاربرد باشند؛ همچنین انجام این ارزیابیها باید همراه با پرداخت دستمزد به داوطلبان باشد، نه صرفاً رایگان.
از سوی دیگر، مدیران پلتفرمهایی مانند Gray Swan AI و OpenRouter نیز تأکید دارند که ارزیابیهای مبتنی بر مشارکت عمومی باید در کنار ارزیابیهای تخصصیتر صورت بگیرد و بهتنهایی نباید مبنای قضاوت درباره کیفیت مدلها قرار گیرد.
بهطور کلی، کارشناسان خواستار شفافیت بیشتر، توزیع عادلانه فرآیند ارزیابی و جلوگیری از سوءاستفاده شرکتها از نتایج ارزیابیهای عمومی هستند.
