آیا ارزیابی کاربران در حوزه هوش مصنوعی اعتبار علمی دارد؟

کمیته رکن چهارم – کارشناسان دانشگاهی و فعالان حوزه هوش مصنوعی هشدار داده‌اند که روش‌های ارزیابی مبتنی بر مشارکت عمومی، مانند آنچه در پلتفرم Chatbot Arena انجام می‌شود، از نظر علمی و اخلاقی با ایرادات جدی مواجه‌اند.

به گزارش کمیته رکن چهارم، پلتفرم‌هایی مانند Chatbot Arena به کاربران اجازه می‌دهند تا بین پاسخ‌های دو مدل ناشناس یکی را انتخاب کنند. اما به گفته امیلی بندر، استاد زبان‌شناسی دانشگاه واشنگتن، این روش‌ها فاقد اعتبار علمی مشخص هستند و معلوم نیست انتخاب کاربران واقعاً نشان‌دهنده ترجیح یا کیفیت بالاتر باشد.

برخی کارشناسان مانند اسملاش تکا هادگو، پژوهشگر در DAIR، می‌گویند که شرکت‌ها از این ارزیابی‌ها برای تبلیغ و بزرگ‌نمایی مدل‌های خود استفاده می‌کنند. او به نمونه‌ای اشاره کرده که متا مدلی را طوری تنظیم کرده بود که در رتبه‌بندی عملکرد بالایی داشته باشد، اما نسخه نهایی آن ضعیف‌تر بود.

پیشنهادها شامل این است که ارزیابی‌ها باید تخصصی‌تر، پویا، و وابسته به حوزه کاربرد باشند؛ همچنین انجام این ارزیابی‌ها باید همراه با پرداخت دستمزد به داوطلبان باشد، نه صرفاً رایگان.

از سوی دیگر، مدیران پلتفرم‌هایی مانند Gray Swan AI و OpenRouter نیز تأکید دارند که ارزیابی‌های مبتنی بر مشارکت عمومی باید در کنار ارزیابی‌های تخصصی‌تر صورت بگیرد و به‌تنهایی نباید مبنای قضاوت درباره کیفیت مدل‌ها قرار گیرد.

به‌طور کلی، کارشناسان خواستار شفافیت بیشتر، توزیع عادلانه فرآیند ارزیابی و جلوگیری از سوءاستفاده شرکت‌ها از نتایج ارزیابی‌های عمومی هستند.

مرورگرها به مهم‌ترین نقطه ریسک امنیتی سازمان‌ها تبدیل شده‌اند

آسیب‌پذیری بحرانی در افزونه وردپرس؛ امکان ایجاد حساب مدیر بدون احراز هویت

آسیب‌پذیری بحرانی در FreeScout؛ امکان اجرای کد از راه دور تنها با یک ایمیل

اعتراف اپراتور باج‌افزار Phobos؛ کلاهبرداری ۳۹ میلیون دلاری از هزاران قربانی

آسیب‌پذیری‌های جدید سیسکو در SD-WAN تحت سوءاستفاده فعال قرار گرفتند

وصله ۱۲۹ آسیب‌پذیری اندروید؛ رفع یک روز-صفر فعال در چیپ‌ست‌های کوالکام

فیشینگ با پوسته «امنیت گوگل»؛ توزیع PWA مخرب برای سرقت OTP و رمزارز

دیپ‌فیک‌ها از مرز رسانه عبور کردند؛ هویت دیجیتال هدف اصلی حملات جدید

انتشار کامل داده‌های سرقتی Odido؛ ۶.۵ میلیون نفر تحت تأثیر افشای ShinyHunters

توقیف RAMP، افشای BreachForums و فشار بر تلگرام؛ شکاف در اکوسیستم باج‌افزار ۲۰۲۶

آیا ارزیابی کاربران در حوزه هوش مصنوعی اعتبار علمی دارد؟

درباره نویسنده

پست های مرتبط

پاسخ دهید

لغو پاسخ

پاسخ دهید

سهم

پاسخ دهید لغو پاسخ

پاسخ دهید

لغو پاسخ