کمیته رکن چهارم – ناکارآمدی مدل تولیدکننده تصویر Sora باعث ناکارآمدی آن در فهم چگونگی کار دنیای فیزیکی و شبیهسازی کارآمد آن خواهد شد.
هفته گذشته، OpenAI با معرفی مدل هوش مصنوعی Sora که براساس متن میتواند ویدیو بسازد، بحثهای فراوانی را ایجاد کرد. اما «یان لیکان» (Yann Lecun)، دانشمند ارشد هوش مصنوعی که هماکنون در متا مشغول به فعالیت است، عقیده دارد این همه هیجان برای مدل متن به ویدیو هیچوپوچ است و این مدل در تحقق اهداف ادعاشده توسط OpenAI شکست میخورد.
بهطور خلاصه، لیکان از این ادعای OpenAI انتقاد کرده است که Sora در نهایت ساخت «شبیهسازهای همهمنظوره از دنیای فیزیکی» را ممکن میکند. او میگوید که رویکرد OpenAI برای ساخت یک «شبیهساز دنیا» مطلقاً اشتباه است.
دانشمند ارشد هوش مصنوعی متا با انتشار یک پست در ایکس نوشت:
«مدلسازی متحرک دنیا با تولید پیکسلها بیفایده و محکوم به شکست است، مانند ایده عمدتاً رهاشده آنالیز با سنتز.»
یان لیکان مدلهای تولیدگر را برای شبیهسازی دنیای فیزیکی ناکارآمد میداند و درحال کار روی مدل خود در متا است که پیشبینیهای واقعیتری از دنیا انجام میدهد.
لیکان یکی از پدرخواندههای هوش مصنوعی محسوب میشود. برخلاف پدرخواندههای دیگر که از ساخت هوش مصنوعی ابراز پشیمانی کردهاند، او به کار خود با متا ادامه میدهد. لیکان همچنین یکی از صریحترین و بیپردهترین منتقدان رقبای خود در دنیای هوش مصنوعی است.
لیکان با نظر خود به یک بحث قدیمی دریادگیری ماشین بین مدلهای تولیدکننده و مدلهای متمایزکننده اشاره دارد. او میگوید مدلهای تولیدکننده که با «متغیرهای پنهان بیانگر» پیکسل میسازند، بسیار ناکارآمد هستند و این مدل نمیتواند عدم قطعیتهای ناشی از پیشبینی پیچیدگیهای یک فضای سهبعدی را بهخوبی کنترل کند.
بهزبان ساده، او میگوید این مدلها تلاش میکنند تا جزئیاتی بسیار بیربط را «استنتاج» کنند. برای مثال، حرکت یک توپ فوتبال را با تلاش برای فهم نقش تمام مواد سازنده توپ در حرکت محاسبه میکنند، نه تمرکز روی چیزهایی مثل جرم و وزن توپ.
او در ادامه پست خود گفت: «اگر هدف شما واقعاً تولید ویدیو باشد، استفاده از این مدل هیچ اشکالی ندارد. اما اگر هدفتان فهم چگونگی کارکرد دنیاست، این کار به شکست میانجامد.»
لیکان میگوید مدلهای زبانی بزرگ مانند ChatGPT تا الان کارآمد بودهاند، «زیرا متن با تعداد محدودی نماد متمایز است.» اما اگر بخواهید مثل Sora دنیا را شبیهسازی کنید، با چیزی بیشتر از چند کاراکتر سروکار خواهید داشت.
لیکان برای رقابت با فناوری OpenAI روی مدل خود در متا کار میکند. این مدل مَفصل ویدیو حامل معماری پیشبینیگر (V-JEPA) نام دارد و هفته گذشته رونمایی شد.
کمپانی متا در یک پست بلاگ اعلام کرده که «برخلاف رویکردهای تولیدگر که تلاش میکنند هر پیکسل گمشدهای را پر کنند، V-JEPA این انعطاف را دارد که اطلاعات پیشبینیناپذیر را حذف کند، که تمرین و کارایی نمونه را بین ۱٫۵ تا ۶ برابر بهبود میدهد.»
کار لیکان بهاندازه محصولات OpenAI با تصاویر و متنهای پرزرقوبرقی که دارند هیجانانگیز نیست، اما دورشدن این پژوهشگر برجسته هوش مصنوعی از رویکردهای قدیمی که OpenAI و مقلدان فراوانش درحال توسعه آنها هستند، جالب است.
منبع : دیجیاتو