اتهام تازه علیه OpenAI؛ استفاده از منابع خصوصی

فروردین ۱۳, ۱۴۰۴ نوشتهٔ nastaran بدون نظر

کمیته رکن چهارم – گزارش جدیدی از یک نهاد ناظر بر هوش مصنوعی نشان می‌دهد که شرکت OpenAI احتمالاً در آموزش مدل GPT-4o از محتوای کتاب‌های غیرعمومی انتشارات O’Reilly بدون دریافت مجوز رسمی استفاده کرده است.

به گزارش کمیته رکن چهارم، شرکت OpenAI که پیش‌تر نیز در زمینه استفاده بدون مجوز از محتوای دارای حق نشر مورد انتقاد قرار گرفته بود، اکنون با اتهام تازه‌ای مواجه شده است. طبق گزارش منتشرشده از سوی نهاد غیرانتفاعی «پروژه افشای هوش مصنوعی»، مدل GPT-4o این شرکت به شکل قابل توجهی توانایی شناسایی و بازتولید محتوای کتاب‌های دارای حق اشتراک انتشارات O’Reilly را دارد. این در حالی است که بنا بر این گزارش، هیچ قرارداد رسمی یا مجوز استفاده از سوی OpenAI برای بهره‌برداری از این محتواها منعقد نشده است.

تحلیل انجام‌شده با استفاده از روشی به نام DE-COP صورت گرفته است؛ روشی علمی که بررسی می‌کند آیا یک مدل زبانی پیش‌تر متنی را در داده‌های آموزشی خود دیده است یا خیر. پژوهشگران با بررسی نزدیک به ۱۴ هزار پاراگراف از ۳۴ کتاب O’Reilly دریافتند که مدل GPT-4o نسبت به نسخه قبلی GPT-3.5 Turbo شناخت دقیق‌تری از این متون دارد، که می‌تواند نشانگر حضور آن‌ها در داده‌های آموزشی باشد.

با وجود یافته‌های ارائه‌شده، نویسندگان گزارش اذعان داشته‌اند که این نتایج قطعی نیست و احتمال وجود خطا یا ورود داده‌ها از طریق منابع غیررسمی مانند کپی‌پیست کاربران نیز وجود دارد. همچنین در این پژوهش مدل‌های جدیدتری نظیر GPT-4.5 یا نسخه‌های مبتنی بر استدلال نظیر o3-mini مورد ارزیابی قرار نگرفته‌اند.

شرکت OpenAI در سال‌های اخیر تلاش گسترده‌ای برای دسترسی به داده‌های باکیفیت داشته و حتی از خبرنگاران و متخصصان رشته‌هایی مانند فیزیک و زیست‌شناسی برای بهبود محتوای خروجی مدل‌ها بهره گرفته است. با این حال، هنوز پرسش‌هایی در خصوص منابع واقعی داده‌های آموزشی این شرکت مطرح است.

شایان ذکر است که OpenAI برای بخشی از داده‌های مورد استفاده خود قراردادهایی با ناشران خبری، شبکه‌های اجتماعی و پلتفرم‌های رسانه‌ای منعقد کرده و گزینه‌هایی برای حذف محتوای دارای حق نشر از فرایند آموزش ارائه داده است. با این حال، محدودیت‌های این مکانیزم و شکایات حقوقی موجود در آمریکا، چالش‌های حقوقی جدیدی را برای این شرکت ایجاد کرده‌اند.

مطالب مرتبط

هزاران مخزن جعلی GitHub کاربران و عامل‌های هوش مصنوعی را هدف گرفتند

حملات گسترده به وردپرس با دو آسیب‌پذیری بحرانی آغاز شد

باج‌افزار جدید ENCFORGE زیرساخت‌های هوش مصنوعی را هدف قرار داد

دیدگاه خود را بنویسید لغو پاسخ