هوش مصنوعی در تاریخ کم‌حافظه است

کمیته رکن چهارم – یک مقاله جدید نشان می‌دهد که مدل‌های زبانی هوش مصنوعی علی‌رغم موفقیت در زمینه‌هایی مانند برنامه‌نویسی یا تولید محتوا، در پاسخ به سؤالات تاریخی عملکرد ضعیفی دارند. پژوهشگران با ایجاد بنچمارک Hist-LLM سه مدل شامل GPT-4، Llama و Gemini را آزمایش کرده و به نتایجی نگران‌کننده دست یافته‌اند.

به گزارش کمیته رکن چهارم، GPT-4 Turbo بهترین عملکرد را در آزمایش‌های تاریخی داشت، اما دقت آن تنها ۴۶ درصد بود. این مدل‌ها گاهی پاسخ‌هایی اشتباه مانند وجود زره پولک‌دار در مصر باستان ارائه کردند، درحالی‌که این فناوری ۱۵۰۰ سال بعد در آشور ظاهر شد. همچنین، ادعای وجود ارتش دائمی در مصر باستان نادرست بود، چراکه این نوع ارتش‌ها در امپراتوری‌هایی مانند هخامنشیان شکل گرفتند.

دلیل این اشتباهات، تمرکز مدل‌ها بر داده‌های برجسته و نادیده گرفتن جزئیات کمتر شناخته‌شده است. علاوه بر این، تعصب در داده‌های آموزشی باعث ضعف در تحلیل مناطق کمتر مستند، مانند آفریقای جنوب صحرا، شده است. پژوهشگران تأکید دارند که رفع این محدودیت‌ها نیازمند داده‌های جامع‌تر و آموزش دقیق‌تر است.

پژوهشگران تأکید دارند که مدل‌های زبانی بزرگ برای حقایق ساده مناسب‌اند اما عمق کافی برای تحلیل سؤالات پیچیده تاریخی ندارند. ماریا دل ریو-چانونا از دانشگاه کالج لندن، اعلام کرد که این مدل‌ها هنوز نمی‌توانند جایگزین مورخان شوند، اما در آینده می‌توانند به عنوان ابزار کمکی مفید عمل کنند.

این مطالعه همچنین نشان داد که مدل‌ها در مناطقی مانند آفریقای جنوب صحرا که داده‌های کمتری در دسترس است، عملکرد بسیار ضعیفی دارند. آفریقای جنوب صحرا به منطقه‌ای در جنوب صحرای بزرگ آفریقا اطلاق می‌شود که به‌دلیل محدودیت منابع تاریخی کمتر در داده‌های آموزشی هوش مصنوعی نمایان شده است. پژوهشگران قصد دارند معیار Hist-LLM را با داده‌های بیشتر و طراحی سؤالات پیچیده‌تر بهبود دهند تا درک تاریخی هوش مصنوعی را تقویت کنند.

با وجود پیشرفت‌های چشمگیر در هوش مصنوعی، این یافته‌ها نشان می‌دهد که فناوری هنوز در زمینه‌های تخصصی مانند تاریخ نیازمند پیشرفت و تکامل است. ایجاد مدل‌هایی با دقت بیشتر و تعصب کمتر می‌تواند به محققان و مورخان در بررسی عمیق‌تر تاریخ کمک کند.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Green Captcha Characters Below.