مدل هوش مصنوعی جمینای ۱٫۵ پرو اکنون می‌تواند صداها را درک کند

کمیته رکن چهارم – مدل جمینای ۱٫۵ پرو حالا می‌تواند به فایل‌های صوتی آپلودشده، تماس‌های صوتی و صدای ویدیوها گوش دهد و آن‌ها را درک کند.

گوگل در کنفرانس Cloud Next اعلام کرد که مدل جمینای ۱٫۵ پرو اکنون از پردازش صدا پشتیبانی می‌کند. این مدل هوش مصنوعی حالا می‌تواند به فایل‌های صوتی آپلودشده، تماس‌های صوتی و همچنین به صدای ویدیوها گوش دهد و بدون نیاز به زیرنویس متنی آن‌ها را درک کند. گوگل همچنین گفت که جمینای ۱٫۵ پرو را برای اولین‌بار از طریق پلتفرم Vertex AI در دسترس عموم قرار می‌دهد.

نسخه جدید جمینای پرو که قرار بوده است عضو میانه خانواده جمینای باشد، درحال‌حاضر از نظر عملکرد از بزرگ‌ترین و قدرتمندترین عضو این خانواده یعنی جمینای اولترا جلو زده است. گوگل ادعا می‌کند که جمینای ۱٫۵ پرو می‌تواند دستورالعمل‌های پیچیده را درک کند و سریع‌تر از جمینای اولترا است.

مدل هوش مصنوعی جمینای ۱٫۵ پرو گوگل

گوگل پیش‌تر ادعا کرده بود که جمینای ۱٫۵ پرو در ۸۷ درصد از بنچمارک‌ها، جمینای ۱٫۰ پرو را شکست می‌دهد و حتی در برخی ویژگی‌ها از جمینای ۱٫۰ اولترا بهتر عمل می‌کند. همچنین قبلاً اعلام شده بود که کاربران با این مدل می‌توانند یک ساعت ویدیو، ۱۱ ساعت صدا، کدهایی با بیش از ۳۰,۰۰۰ خط، یا بیش از ۷۰۰ هزار کلمه را همزمان پردازش کنند.

جمینای ۱٫۵ پرو تنها مدل هوش مصنوعی گوگل نیست که ارتقا یافته است. نسخه جدید مدل متن به تصویر Imagen 2 نیز معرفی شده است که به کاربران اجازه می‌دهد عناصر مختلف را از تصاویر حذف یا به آن اضافه کنند. همچنین حالا قابلیت تبدیل متن به تصاویر متحرک به این مدل اضافه شده است. گوگل همچنین قابلیت واترمارک دیجیتال SynthID خود را در تمامی تصاویر ایجادشده از طریق مدل‌های Imagen در دسترس قرار داد.

جمینای ۱٫۵ پرو فعلاً فقط برای افرادی که به پلتفرم Vertex AI دسترسی دارند، قابل استفاده است.

منبع : دیجیاتو