کمیته رکن چهارم – محدودیتهای روزافزون در دسترسی به دادههای واقعی، شرکتهای بزرگ را به سمت استفاده از دادههای مصنوعی در آموزش مدلهای هوش مصنوعی سوق داده است. دادههای مصنوعی که توسط هوش مصنوعی تولید میشوند، بهعنوان راهکاری برای کاهش هزینهها و جبران کمبود منابع داده واقعی شناخته میشوند.
به گزارش کمیته رکن چهارم، شرکتهایی مانند «OpenAI»، «Meta» و «Anthropic» از دادههای مصنوعی برای توسعه مدلهای خود بهره بردهاند. بهعنوان نمونه، Meta از این دادهها برای بهبود مدل «Llama 3.1» استفاده کرده است. پیشبینی میشود تا سال ۲۰۳۰، بخش عمدهای از دادههای مورد استفاده در آموزش مدلهای هوش مصنوعی، از نوع مصنوعی باشند.
دادههای مصنوعی به دلیل کاهش هزینهها و دسترسی آسانتر، مورد استقبال شرکتها قرار گرفتهاند. برای مثال، شرکت «Writer» با این روش هزینه آموزش مدل خود را به ۷۰۰ هزار دلار کاهش داده است. این در حالی است که هزینه آموزش یک مدل مشابه در OpenAI حدود ۴.۶ میلیون دلار برآورد شده است.
با این حال، کارشناسان هشدار دادهاند که کیفیت پایین دادههای اولیه یا تنوع محدود دادههای مصنوعی میتواند به نتایج نادرست یا گمراهکننده منجر شود. این نوع دادهها ممکن است واقعیت را بهطور کامل منعکس نکنند و در برخی موارد موجب ایجاد تعصبات در مدلهای آموزشدیده شوند.
دادههای مصنوعی میتوانند نقش مکملی مهم در کنار دادههای واقعی داشته باشند، اما هنوز جایگزینی کامل برای آنها نیستند. نظارت انسانی و بررسی دقیق دادهها برای جلوگیری از مشکلات احتمالی همچنان ضروری است.