ارزیابی GPT-5 در چندین شغل اقتصادی

کمیته رکن چهارم– شرکت OpenAI در تاریخ ۲۵ سپتامبر ۲۰۲۵ بنچمارک جدیدی به نام GDPval معرفی کرد که عملکرد مدل‌های هوش مصنوعی خود را در برابر متخصصان انسانی در صنایع مختلف می‌سنجد. این ارزیابی بخشی از تلاش OpenAI برای سنجش میزان نزدیک‌شدن مدل‌های AI به توانایی‌های انسان در مشاغل اقتصادی باارزش است.

به گزارش کمیته رکن چهارم، این آزمون عملکرد مدل GPT-5 و Claude Opus 4.1 از شرکت Anthropic را در برابر متخصصان باتجربه بررسی کرده است. بر اساس نتایج، Claude در ۴۹ درصد و GPT-5-high در ۴۰٫۶ درصد از وظایف عملکردی هم‌سطح یا بهتر از انسان‌ها داشته‌اند. در مقایسه، مدل GPT-4o حدود ۱۵ ماه قبل تنها در ۱۳٫۷ درصد از وظایف موفق عمل کرده بود.

این بنچمارک فعالیت مدل‌ها را در ۴۴ شغل کلیدی از جمله روزنامه‌نگاری، مهندسی نرم‌افزار و پرستاری در ۹ صنعت مختلف ارزیابی می‌کند. متخصصان انسانی گزارش‌هایی تولید کردند که با خروجی مدل‌ها مقایسه شد. در برخی موارد، مانند بانکداری سرمایه‌گذاری، تحلیل‌های ارائه‌شده توسط AI با استانداردهای حرفه‌ای ارزیابی شد.

اگرچه نتایج نشان‌دهنده پیشرفت سریع مدل‌های AI است، OpenAI تأکید می‌کند که GDPval هنوز تنها بخش کوچکی از وظایف شغلی واقعی را پوشش می‌دهد. هدف آینده، طراحی آزمون‌هایی جامع‌تر برای سنجش مهارت مدل‌ها در تعاملات پیچیده‌تر و وظایف واقعی‌تر است.

شرکت OpenAI معتقد است بنچمارک‌هایی مانند GDPval می‌توانند به ابزارهای مهمی برای بررسی توانایی AI تبدیل شوند، اما برای نتیجه‌گیری قطعی در مورد برتری مدل‌ها نسبت به انسان، به نسخه‌های گسترده‌تری نیاز خواهد بود.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Green Captcha Characters Below.