کمیته رکن چهارم – بنیاد ویکیمدیا اعلام کرد مصرف پهنای باند در Wikimedia Commons از ژانویه ۲۰۲۴ تاکنون بهدلیل فعالیت رباتهای جمعآورنده داده بیش از ۵۰ درصد افزایش یافته است؛ موضوعی که زیرساختهای اینترنت آزاد را با چالش روبهرو کرده است.
به گزارش کمیته رکن چهارم، رباتهای جمعآورنده داده، نرمافزارهایی هستند که بهصورت خودکار صفحات و فایلهای اینترنتی را بررسی و جمعآوری میکنند تا دادههای لازم برای آموزش مدلهای یادگیری ماشین را استخراج کنند. این رباتها در ماههای اخیر با دانلود گسترده فایلهای چندرسانهای از Wikimedia Commons – یکی از بزرگترین مخازن محتوای آزاد مانند عکس، ویدیو و صدا – فشار زیادی به سرورهای این مجموعه وارد کردهاند.
این رباتها برخلاف کاربران انسانی، بهجای تمرکز بر محتوای رایج، به فایلهای کمتر استفادهشده سر میزنند؛ فایلهایی که معمولاً در حافظه پنهان قرار ندارند و مستقیماً از مرکز داده بارگیری میشوند، که این موضوع باعث مصرف بالای منابع و هزینه میشود. طبق گزارش بنیاد، ۶۵ درصد از درخواستهای پرمصرف مربوط به این رباتهاست و تیم فنی ویکیمدیا بخش زیادی از زمان خود را صرف مدیریت این فشار برای حفظ دسترسی کاربران عادی کرده است.
این روند بخشی از یک چالش جهانی بزرگتر است که منابع عمومی و زیرساختهای متنباز را تهدید میکند. بسیاری از این رباتها بدون توجه به فایلهای محدودکننده مانند robots.txt عمل میکنند. برخی توسعهدهندگان برای مقابله با آنها از روشهای هوشمندانه استفاده کردهاند و حتی شرکتهایی مانند Cloudflare پروژههایی برای کند کردن فعالیت این رباتها معرفی کردهاند.
با این حال، تحلیلگران هشدار میدهند ادامه این وضعیت ممکن است منجر به محدود شدن دسترسی آزاد به اطلاعات شود و بسیاری از منابع باز محتوای خود را تنها از طریق اشتراک یا ورود کاربران در دسترس قرار دهند.