ارزیابی تخصصی عملکرد هوش مصنوعی؛ مسیر تازه OpenAI

کمیته رکن چهارم – شرکت OpenAI برنامه‌ای تازه به نام «Pioneers» راه‌اندازی کرده است که هدف آن، طراحی معیارهای سنجش عملکرد (بنچمارک) دقیق‌تر و تخصصی‌ در حوزه‌های خاص صنعتی است. این اقدام در واکنش به ناکارآمدی بنچمارک‌های عمومی موجود انجام می‌شود که به‌زعم این شرکت، بازتاب‌دهنده واقعی عملکرد مدل‌ها در محیط‌های کاربردی نیستند.

به گزارش کمیته رکن چهارم، بنچمارک‌های فعلی عمدتاً بر وظایف پیچیده یا آکادمیک تمرکز دارند و قابلیت دور زدن بالایی دارند. همچنین در بسیاری موارد با نیازهای عملیاتی و ترجیحات واقعی کاربران مطابقت ندارند. اختلاف‌نظرهای اخیر درباره رتبه‌بندی LM Arena و مدل Maverick از شرکت Meta نیز گواه این کاستی‌هاست.

برنامه Pioneers قرار است با تمرکز بر حوزه‌هایی مانند حقوق، سلامت، بیمه، مالی و حسابداری، ارزیابی‌هایی ایجاد کند که عملکرد مدل‌ها را در بافت واقعی بسنجند. OpenAI اعلام کرده است که در فاز اول، این طرح با همکاری استارتاپ‌هایی آغاز می‌شود که از هوش مصنوعی در کاربردهای عملی استفاده می‌کنند.

استارتاپ‌های منتخب، ضمن بهره‌مندی از معیارهای ارزیابی تخصصی، امکان همکاری مستقیم با تیم OpenAI را برای بهینه‌سازی مدل‌های خود از طریق روش «تقویت از طریق بازآموزی انتخابی» خواهند داشت؛ روشی که دقت مدل را در وظایف حساس بالا می‌برد.

هرچند هدف برنامه ارتقاء سنجش کیفیت مدل‌ها در صنایع حساس است، اما کارشناسان هشدار می‌دهند که توسعه بنچمارک‌ها تحت حمایت مالی یا فنی OpenAI، ممکن است نگرانی‌هایی درباره بی‌طرفی ارزیابی‌ها به‌دنبال داشته باشد.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Green Captcha Characters Below.