آیا ارزیابی کاربران در حوزه هوش مصنوعی اعتبار علمی دارد؟

کمیته رکن چهارم – کارشناسان دانشگاهی و فعالان حوزه هوش مصنوعی هشدار داده‌اند که روش‌های ارزیابی مبتنی بر مشارکت عمومی، مانند آنچه در پلتفرم Chatbot Arena انجام می‌شود، از نظر علمی و اخلاقی با ایرادات جدی مواجه‌اند.

به گزارش کمیته رکن چهارم، پلتفرم‌هایی مانند Chatbot Arena به کاربران اجازه می‌دهند تا بین پاسخ‌های دو مدل ناشناس یکی را انتخاب کنند. اما به گفته امیلی بندر، استاد زبان‌شناسی دانشگاه واشنگتن، این روش‌ها فاقد اعتبار علمی مشخص هستند و معلوم نیست انتخاب کاربران واقعاً نشان‌دهنده ترجیح یا کیفیت بالاتر باشد.

برخی کارشناسان مانند اسملاش تکا هادگو، پژوهشگر در DAIR، می‌گویند که شرکت‌ها از این ارزیابی‌ها برای تبلیغ و بزرگ‌نمایی مدل‌های خود استفاده می‌کنند. او به نمونه‌ای اشاره کرده که متا مدلی را طوری تنظیم کرده بود که در رتبه‌بندی عملکرد بالایی داشته باشد، اما نسخه نهایی آن ضعیف‌تر بود.

پیشنهادها شامل این است که ارزیابی‌ها باید تخصصی‌تر، پویا، و وابسته به حوزه کاربرد باشند؛ همچنین انجام این ارزیابی‌ها باید همراه با پرداخت دستمزد به داوطلبان باشد، نه صرفاً رایگان.

از سوی دیگر، مدیران پلتفرم‌هایی مانند Gray Swan AI و OpenRouter نیز تأکید دارند که ارزیابی‌های مبتنی بر مشارکت عمومی باید در کنار ارزیابی‌های تخصصی‌تر صورت بگیرد و به‌تنهایی نباید مبنای قضاوت درباره کیفیت مدل‌ها قرار گیرد.

به‌طور کلی، کارشناسان خواستار شفافیت بیشتر، توزیع عادلانه فرآیند ارزیابی و جلوگیری از سوءاستفاده شرکت‌ها از نتایج ارزیابی‌های عمومی هستند.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Red Captcha Characters Below.