کمیته رکن چهارم – شرکت OpenAI برنامهای تازه به نام «Pioneers» راهاندازی کرده است که هدف آن، طراحی معیارهای سنجش عملکرد (بنچمارک) دقیقتر و تخصصی در حوزههای خاص صنعتی است. این اقدام در واکنش به ناکارآمدی بنچمارکهای عمومی موجود انجام میشود که بهزعم این شرکت، بازتابدهنده واقعی عملکرد مدلها در محیطهای کاربردی نیستند.
به گزارش کمیته رکن چهارم، بنچمارکهای فعلی عمدتاً بر وظایف پیچیده یا آکادمیک تمرکز دارند و قابلیت دور زدن بالایی دارند. همچنین در بسیاری موارد با نیازهای عملیاتی و ترجیحات واقعی کاربران مطابقت ندارند. اختلافنظرهای اخیر درباره رتبهبندی LM Arena و مدل Maverick از شرکت Meta نیز گواه این کاستیهاست.
برنامه Pioneers قرار است با تمرکز بر حوزههایی مانند حقوق، سلامت، بیمه، مالی و حسابداری، ارزیابیهایی ایجاد کند که عملکرد مدلها را در بافت واقعی بسنجند. OpenAI اعلام کرده است که در فاز اول، این طرح با همکاری استارتاپهایی آغاز میشود که از هوش مصنوعی در کاربردهای عملی استفاده میکنند.
استارتاپهای منتخب، ضمن بهرهمندی از معیارهای ارزیابی تخصصی، امکان همکاری مستقیم با تیم OpenAI را برای بهینهسازی مدلهای خود از طریق روش «تقویت از طریق بازآموزی انتخابی» خواهند داشت؛ روشی که دقت مدل را در وظایف حساس بالا میبرد.
هرچند هدف برنامه ارتقاء سنجش کیفیت مدلها در صنایع حساس است، اما کارشناسان هشدار میدهند که توسعه بنچمارکها تحت حمایت مالی یا فنی OpenAI، ممکن است نگرانیهایی درباره بیطرفی ارزیابیها بهدنبال داشته باشد.