مدل‌های AI در دیباگ کدها ناتوان‌اند

کمیته رکن چهارم – با وجود پیشرفت چشمگیر مدل‌های هوش مصنوعی در انجام وظایف برنامه‌نویسی، مطالعه‌ای جدید از واحد تحقیقاتی مایکروسافت نشان می‌دهد این مدل‌ها هنوز در رفع اشکالات نرم‌افزاری عملکرد قابل قبولی ندارند.

به گزارش کمیته رکن چهارم، پژوهشگران مایکروسافت ۹ مدل مطرح را با استفاده از مجموعه‌ای از وظایف رفع باگ در بنچمارک SWE-bench Lite مورد بررسی قرار دادند. این مدل‌ها باید ۳۰۰ مورد مختلف از اشکال‌زدایی را تنها با یک درخواست (prompt) و با دسترسی به ابزارهایی مانند Python Debugger حل می‌کردند. نتیجه نشان داد هیچ‌یک از مدل‌ها نتوانستند حتی نیمی از باگ‌ها را به‌درستی رفع کنند.

مدل Claude 3.7 Sonnet از شرکت Anthropic با نرخ موفقیت ۴۸.۴٪ در صدر قرار گرفت، در حالی‌که مدل OpenAI o1 تنها ۳۰.۲٪ و نسخه o3-mini حدود ۲۲.۱٪ موفقیت داشتند. تحلیل‌گران دلیل این ضعف را ناتوانی مدل‌ها در تشخیص ابزار مناسب برای هر نوع خطا و نیز کمبود داده‌های تخصصی از روند اشکال‌زدایی توسط انسان‌ها دانسته‌اند.

مطالعه تأکید می‌کند برای بهبود این عملکرد، باید از داده‌هایی استفاده کرد که مسیر تصمیم‌گیری و تعامل انسان با دیباگر را بازسازی می‌کنند. این یافته در کنار بررسی‌های دیگر نشان می‌دهد که مدل‌های کدنویسی هوش مصنوعی هنوز در تولید کدهای ایمن و دقیق دچار چالش هستند.

با وجود این، بسیاری از متخصصان فناوری از جمله بیل گیتس و مدیران Replit، IBM و Okta معتقدند که AI نقش کمکی خواهد داشت، اما جایگزین برنامه‌نویسان نخواهد شد.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Blue Captcha Characters Below.