کمیته رکن چهارم – گزارش جدیدی از یک نهاد ناظر بر هوش مصنوعی نشان میدهد که شرکت OpenAI احتمالاً در آموزش مدل GPT-4o از محتوای کتابهای غیرعمومی انتشارات O’Reilly بدون دریافت مجوز رسمی استفاده کرده است.
به گزارش کمیته رکن چهارم، شرکت OpenAI که پیشتر نیز در زمینه استفاده بدون مجوز از محتوای دارای حق نشر مورد انتقاد قرار گرفته بود، اکنون با اتهام تازهای مواجه شده است. طبق گزارش منتشرشده از سوی نهاد غیرانتفاعی «پروژه افشای هوش مصنوعی»، مدل GPT-4o این شرکت به شکل قابل توجهی توانایی شناسایی و بازتولید محتوای کتابهای دارای حق اشتراک انتشارات O’Reilly را دارد. این در حالی است که بنا بر این گزارش، هیچ قرارداد رسمی یا مجوز استفاده از سوی OpenAI برای بهرهبرداری از این محتواها منعقد نشده است.
تحلیل انجامشده با استفاده از روشی به نام DE-COP صورت گرفته است؛ روشی علمی که بررسی میکند آیا یک مدل زبانی پیشتر متنی را در دادههای آموزشی خود دیده است یا خیر. پژوهشگران با بررسی نزدیک به ۱۴ هزار پاراگراف از ۳۴ کتاب O’Reilly دریافتند که مدل GPT-4o نسبت به نسخه قبلی GPT-3.5 Turbo شناخت دقیقتری از این متون دارد، که میتواند نشانگر حضور آنها در دادههای آموزشی باشد.
با وجود یافتههای ارائهشده، نویسندگان گزارش اذعان داشتهاند که این نتایج قطعی نیست و احتمال وجود خطا یا ورود دادهها از طریق منابع غیررسمی مانند کپیپیست کاربران نیز وجود دارد. همچنین در این پژوهش مدلهای جدیدتری نظیر GPT-4.5 یا نسخههای مبتنی بر استدلال نظیر o3-mini مورد ارزیابی قرار نگرفتهاند.
شرکت OpenAI در سالهای اخیر تلاش گستردهای برای دسترسی به دادههای باکیفیت داشته و حتی از خبرنگاران و متخصصان رشتههایی مانند فیزیک و زیستشناسی برای بهبود محتوای خروجی مدلها بهره گرفته است. با این حال، هنوز پرسشهایی در خصوص منابع واقعی دادههای آموزشی این شرکت مطرح است.
شایان ذکر است که OpenAI برای بخشی از دادههای مورد استفاده خود قراردادهایی با ناشران خبری، شبکههای اجتماعی و پلتفرمهای رسانهای منعقد کرده و گزینههایی برای حذف محتوای دارای حق نشر از فرایند آموزش ارائه داده است. با این حال، محدودیتهای این مکانیزم و شکایات حقوقی موجود در آمریکا، چالشهای حقوقی جدیدی را برای این شرکت ایجاد کردهاند.