کمیته رکن چهارم – یک مقاله جدید نشان میدهد که مدلهای زبانی هوش مصنوعی علیرغم موفقیت در زمینههایی مانند برنامهنویسی یا تولید محتوا، در پاسخ به سؤالات تاریخی عملکرد ضعیفی دارند. پژوهشگران با ایجاد بنچمارک Hist-LLM سه مدل شامل GPT-4، Llama و Gemini را آزمایش کرده و به نتایجی نگرانکننده دست یافتهاند.
به گزارش کمیته رکن چهارم، GPT-4 Turbo بهترین عملکرد را در آزمایشهای تاریخی داشت، اما دقت آن تنها ۴۶ درصد بود. این مدلها گاهی پاسخهایی اشتباه مانند وجود زره پولکدار در مصر باستان ارائه کردند، درحالیکه این فناوری ۱۵۰۰ سال بعد در آشور ظاهر شد. همچنین، ادعای وجود ارتش دائمی در مصر باستان نادرست بود، چراکه این نوع ارتشها در امپراتوریهایی مانند هخامنشیان شکل گرفتند.
دلیل این اشتباهات، تمرکز مدلها بر دادههای برجسته و نادیده گرفتن جزئیات کمتر شناختهشده است. علاوه بر این، تعصب در دادههای آموزشی باعث ضعف در تحلیل مناطق کمتر مستند، مانند آفریقای جنوب صحرا، شده است. پژوهشگران تأکید دارند که رفع این محدودیتها نیازمند دادههای جامعتر و آموزش دقیقتر است.
پژوهشگران تأکید دارند که مدلهای زبانی بزرگ برای حقایق ساده مناسباند اما عمق کافی برای تحلیل سؤالات پیچیده تاریخی ندارند. ماریا دل ریو-چانونا از دانشگاه کالج لندن، اعلام کرد که این مدلها هنوز نمیتوانند جایگزین مورخان شوند، اما در آینده میتوانند به عنوان ابزار کمکی مفید عمل کنند.
این مطالعه همچنین نشان داد که مدلها در مناطقی مانند آفریقای جنوب صحرا که دادههای کمتری در دسترس است، عملکرد بسیار ضعیفی دارند. آفریقای جنوب صحرا به منطقهای در جنوب صحرای بزرگ آفریقا اطلاق میشود که بهدلیل محدودیت منابع تاریخی کمتر در دادههای آموزشی هوش مصنوعی نمایان شده است. پژوهشگران قصد دارند معیار Hist-LLM را با دادههای بیشتر و طراحی سؤالات پیچیدهتر بهبود دهند تا درک تاریخی هوش مصنوعی را تقویت کنند.
با وجود پیشرفتهای چشمگیر در هوش مصنوعی، این یافتهها نشان میدهد که فناوری هنوز در زمینههای تخصصی مانند تاریخ نیازمند پیشرفت و تکامل است. ایجاد مدلهایی با دقت بیشتر و تعصب کمتر میتواند به محققان و مورخان در بررسی عمیقتر تاریخ کمک کند.