کمیته رکن چهارم – مدل جمینای ۱٫۵ پرو حالا میتواند به فایلهای صوتی آپلودشده، تماسهای صوتی و صدای ویدیوها گوش دهد و آنها را درک کند.
گوگل در کنفرانس Cloud Next اعلام کرد که مدل جمینای ۱٫۵ پرو اکنون از پردازش صدا پشتیبانی میکند. این مدل هوش مصنوعی حالا میتواند به فایلهای صوتی آپلودشده، تماسهای صوتی و همچنین به صدای ویدیوها گوش دهد و بدون نیاز به زیرنویس متنی آنها را درک کند. گوگل همچنین گفت که جمینای ۱٫۵ پرو را برای اولینبار از طریق پلتفرم Vertex AI در دسترس عموم قرار میدهد.
نسخه جدید جمینای پرو که قرار بوده است عضو میانه خانواده جمینای باشد، درحالحاضر از نظر عملکرد از بزرگترین و قدرتمندترین عضو این خانواده یعنی جمینای اولترا جلو زده است. گوگل ادعا میکند که جمینای ۱٫۵ پرو میتواند دستورالعملهای پیچیده را درک کند و سریعتر از جمینای اولترا است.
مدل هوش مصنوعی جمینای ۱٫۵ پرو گوگل
گوگل پیشتر ادعا کرده بود که جمینای ۱٫۵ پرو در ۸۷ درصد از بنچمارکها، جمینای ۱٫۰ پرو را شکست میدهد و حتی در برخی ویژگیها از جمینای ۱٫۰ اولترا بهتر عمل میکند. همچنین قبلاً اعلام شده بود که کاربران با این مدل میتوانند یک ساعت ویدیو، ۱۱ ساعت صدا، کدهایی با بیش از ۳۰,۰۰۰ خط، یا بیش از ۷۰۰ هزار کلمه را همزمان پردازش کنند.
جمینای ۱٫۵ پرو تنها مدل هوش مصنوعی گوگل نیست که ارتقا یافته است. نسخه جدید مدل متن به تصویر Imagen 2 نیز معرفی شده است که به کاربران اجازه میدهد عناصر مختلف را از تصاویر حذف یا به آن اضافه کنند. همچنین حالا قابلیت تبدیل متن به تصاویر متحرک به این مدل اضافه شده است. گوگل همچنین قابلیت واترمارک دیجیتال SynthID خود را در تمامی تصاویر ایجادشده از طریق مدلهای Imagen در دسترس قرار داد.
جمینای ۱٫۵ پرو فعلاً فقط برای افرادی که به پلتفرم Vertex AI دسترسی دارند، قابل استفاده است.
منبع : دیجیاتو