کمیته رکن چهارم – دو دانشجوی کارشناسی، از دانشگاه ملی سئول، مدلی به نام Dia طراحی کردهاند که گفتار مصنوعی با کیفیت بالا تولید میکند و از نظر توانمندی به رقیبی برای NotebookLM گوگل بدل شده است. این پروژه تنها در سه ماه توسعه یافته و حتی قابلیت شبیهسازی صداهای واقعی را دارد.

به گزارش کمیته رکن چهارم، یکی از بنیانگذاران این مدل، توبی کیم (Toby Kim) از کره جنوبی است که در حال حاضر در دانشگاه سئول تحصیل میکند. او و همبنیانگذارش – که هنوز اطلاعاتی از او منتشر نشده – با استفاده از منابع رایگان برنامه Google TPU Research Cloud توانستند مدل Dia را آموزش دهند.
هوش مصنوعی Dia با ۱.۶ میلیارد پارامتر، قابلیت تولید دیالوگهای طبیعی با ویژگیهایی چون لحن، مکث، خنده و نشانههای غیرکلامی را دارد. این مدل روی پلتفرمهایی مانند GitHub و Hugging Face در دسترس است و با داشتن حداقل ۱۰ گیگابایت حافظه گرافیکی قابل اجراست. کاربران میتوانند خروجی صوتی را شخصیسازی کنند یا حتی صدای افراد واقعی را شبیهسازی کنند.
در آزمایشهای اولیه، این مدل توانسته خروجیهایی روان و طبیعی ارائه دهد. اما مانند بسیاری از مدلهای مشابه، نگرانیهایی درباره استفاده نادرست از آن وجود دارد. سازندگان مدل اعلام کردهاند که مسئولیتی در قبال سوءاستفاده از Dia نمیپذیرند و هنوز مشخص نکردهاند که دادههای آموزشی آن از چه منابعی بوده است.
توسعهدهندگان این پروژه میگویند در آینده گزارش فنی کامل و پشتیبانی از زبانهای غیرانگلیسی را نیز منتشر خواهند کرد. همچنین قصد دارند یک پلتفرم اجتماعی مبتنی بر صدا بر پایه Dia و مدلهای بزرگتر بسازند.
