کمیته رکن چهارم – با وجود پیشرفت چشمگیر مدلهای هوش مصنوعی در انجام وظایف برنامهنویسی، مطالعهای جدید از واحد تحقیقاتی مایکروسافت نشان میدهد این مدلها هنوز در رفع اشکالات نرمافزاری عملکرد قابل قبولی ندارند.
به گزارش کمیته رکن چهارم، پژوهشگران مایکروسافت ۹ مدل مطرح را با استفاده از مجموعهای از وظایف رفع باگ در بنچمارک SWE-bench Lite مورد بررسی قرار دادند. این مدلها باید ۳۰۰ مورد مختلف از اشکالزدایی را تنها با یک درخواست (prompt) و با دسترسی به ابزارهایی مانند Python Debugger حل میکردند. نتیجه نشان داد هیچیک از مدلها نتوانستند حتی نیمی از باگها را بهدرستی رفع کنند.
مدل Claude 3.7 Sonnet از شرکت Anthropic با نرخ موفقیت ۴۸.۴٪ در صدر قرار گرفت، در حالیکه مدل OpenAI o1 تنها ۳۰.۲٪ و نسخه o3-mini حدود ۲۲.۱٪ موفقیت داشتند. تحلیلگران دلیل این ضعف را ناتوانی مدلها در تشخیص ابزار مناسب برای هر نوع خطا و نیز کمبود دادههای تخصصی از روند اشکالزدایی توسط انسانها دانستهاند.
مطالعه تأکید میکند برای بهبود این عملکرد، باید از دادههایی استفاده کرد که مسیر تصمیمگیری و تعامل انسان با دیباگر را بازسازی میکنند. این یافته در کنار بررسیهای دیگر نشان میدهد که مدلهای کدنویسی هوش مصنوعی هنوز در تولید کدهای ایمن و دقیق دچار چالش هستند.
با وجود این، بسیاری از متخصصان فناوری از جمله بیل گیتس و مدیران Replit، IBM و Okta معتقدند که AI نقش کمکی خواهد داشت، اما جایگزین برنامهنویسان نخواهد شد.