آزمایش مدل‌های جدید OpenAI برای سنجش توانایی استدلال و متقاعدسازی

کمیته رکن چهارم – شرکت OpenAI از اتاق گفتگوی ChangeMyView در پلتفرم Reddit برای ارزیابی توانایی مدل‌های هوش مصنوعی خود در استدلال و متقاعدسازی استفاده کرده است. این شرکت اعلام کرد که مدل جدید o3-mini با داده‌های این بخش مورد آزمایش قرار گرفته است. ChangeMyView به‌عنوان فضایی برای تبادل نظر شناخته می‌شود، جایی که کاربران دیدگاه‌ها و اظهارات خود را به اشتراک می‌گذارند و دیگران با ارائه دلایل منطقی سعی در متقاعد کردن آن‌ها دارند.

به گزارش کمیته رکن چهارم، OpenAI مدل‌های خود را در یک محیط بسته با پاسخ‌دهی به پست‌های کاربران آزمایش کرده و سپس این پاسخ‌ها را با نظرات انسانی مقایسه کرده است. آزمایش‌کنندگان نیز میزان متقاعدسازی پاسخ‌های مدل را ارزیابی کرده‌اند. شرکت تأکید کرده که این آزمایش‌ها ارتباطی با قرارداد محتوای مجوزدار آن با Reddit ندارند.

OpenAI علاوه بر مدل o3-mini، عملکرد مدل‌های دیگری مانند o1 و GPT-4o را نیز در این Subreddit ارزیابی کرده است. نتایج نشان می‌دهد که اگرچه تفاوت چشمگیری در عملکرد مدل جدید دیده نشده، اما مدل‌های اخیر در استدلال و متقاعدسازی در رتبه ۸۰ تا ۹۰ درصد برتر کاربران این Subreddit قرار گرفته‌اند.

هدف OpenAI از این آزمایش‌ها، بهبود توانایی مدل‌ها در ارائه پاسخ‌های دقیق و جلوگیری از سوءاستفاده‌های احتمالی است. این شرکت اعلام کرده که قصد ندارد مدل‌های بیش‌ازحد متقاعدکننده ایجاد کند، زیرا چنین مدل‌هایی در صورت سوءاستفاده می‌توانند پیامدهای خطرناکی به همراه داشته باشند.

این اقدامات نشان‌دهنده چالش‌های موجود در آموزش هوش مصنوعی است. با وجود داده‌های عمومی در اینترنت، شرکت‌های فناوری همچنان به دنبال داده‌های باکیفیت برای آزمایش و بهبود مدل‌های خود هستند تا عملکرد آن‌ها را در محیط‌های واقعی ارتقا دهند.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Red Captcha Characters Below.