کمیته رکن چهارم– شرکت OpenAI در تاریخ ۲۵ سپتامبر ۲۰۲۵ بنچمارک جدیدی به نام GDPval معرفی کرد که عملکرد مدلهای هوش مصنوعی خود را در برابر متخصصان انسانی در صنایع مختلف میسنجد. این ارزیابی بخشی از تلاش OpenAI برای سنجش میزان نزدیکشدن مدلهای AI به تواناییهای انسان در مشاغل اقتصادی باارزش است.

به گزارش کمیته رکن چهارم، این آزمون عملکرد مدل GPT-5 و Claude Opus 4.1 از شرکت Anthropic را در برابر متخصصان باتجربه بررسی کرده است. بر اساس نتایج، Claude در ۴۹ درصد و GPT-5-high در ۴۰٫۶ درصد از وظایف عملکردی همسطح یا بهتر از انسانها داشتهاند. در مقایسه، مدل GPT-4o حدود ۱۵ ماه قبل تنها در ۱۳٫۷ درصد از وظایف موفق عمل کرده بود.
این بنچمارک فعالیت مدلها را در ۴۴ شغل کلیدی از جمله روزنامهنگاری، مهندسی نرمافزار و پرستاری در ۹ صنعت مختلف ارزیابی میکند. متخصصان انسانی گزارشهایی تولید کردند که با خروجی مدلها مقایسه شد. در برخی موارد، مانند بانکداری سرمایهگذاری، تحلیلهای ارائهشده توسط AI با استانداردهای حرفهای ارزیابی شد.
اگرچه نتایج نشاندهنده پیشرفت سریع مدلهای AI است، OpenAI تأکید میکند که GDPval هنوز تنها بخش کوچکی از وظایف شغلی واقعی را پوشش میدهد. هدف آینده، طراحی آزمونهایی جامعتر برای سنجش مهارت مدلها در تعاملات پیچیدهتر و وظایف واقعیتر است.
شرکت OpenAI معتقد است بنچمارکهایی مانند GDPval میتوانند به ابزارهای مهمی برای بررسی توانایی AI تبدیل شوند، اما برای نتیجهگیری قطعی در مورد برتری مدلها نسبت به انسان، به نسخههای گستردهتری نیاز خواهد بود.
