رقابت دانشجویان با گوگل در تولید صدای هوشمند

کمیته رکن چهارم – دو دانشجوی کارشناسی، از دانشگاه ملی سئول، مدلی به نام Dia طراحی کرده‌اند که گفتار مصنوعی با کیفیت بالا تولید می‌کند و از نظر توانمندی‌ به رقیبی برای NotebookLM گوگل بدل شده است. این پروژه تنها در سه ماه توسعه یافته و حتی قابلیت شبیه‌سازی صداهای واقعی را دارد.

به گزارش کمیته رکن چهارم، یکی از بنیان‌گذاران این مدل، توبی کیم (Toby Kim) از کره جنوبی است که در حال حاضر در دانشگاه سئول تحصیل می‌کند. او و هم‌بنیان‌گذارش – که هنوز اطلاعاتی از او منتشر نشده – با استفاده از منابع رایگان برنامه Google TPU Research Cloud توانستند مدل Dia را آموزش دهند.

هوش مصنوعی Dia با ۱.۶ میلیارد پارامتر، قابلیت تولید دیالوگ‌های طبیعی با ویژگی‌هایی چون لحن، مکث، خنده و نشانه‌های غیرکلامی را دارد. این مدل روی پلتفرم‌هایی مانند GitHub و Hugging Face در دسترس است و با داشتن حداقل ۱۰ گیگابایت حافظه گرافیکی قابل اجراست. کاربران می‌توانند خروجی صوتی را شخصی‌سازی کنند یا حتی صدای افراد واقعی را شبیه‌سازی کنند.

در آزمایش‌های اولیه، این مدل توانسته خروجی‌هایی روان و طبیعی ارائه دهد. اما مانند بسیاری از مدل‌های مشابه، نگرانی‌هایی درباره استفاده نادرست از آن وجود دارد. سازندگان مدل اعلام کرده‌اند که مسئولیتی در قبال سوءاستفاده از Dia نمی‌پذیرند و هنوز مشخص نکرده‌اند که داده‌های آموزشی آن از چه منابعی بوده است.

توسعه‌دهندگان این پروژه می‌گویند در آینده گزارش فنی کامل و پشتیبانی از زبان‌های غیرانگلیسی را نیز منتشر خواهند کرد. همچنین قصد دارند یک پلتفرم اجتماعی مبتنی بر صدا بر پایه Dia و مدل‌های بزرگ‌تر بسازند.

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Red Captcha Characters Below.