هوش مصنوعی Grok-1.5 Vision معرفی شد؛ رقیب GPT-4V در درک تصاویر و نمودارها

کمیته رکن چهارم – Grok-1.5 ویژن به‌زودی برای افراد منتخب و برخی از کاربران فعلی چت‌بات متعلق به xAI در دسترس قرار می‌گیرد.

مدتی پیش استارتاپ هوش مصنوعی «ایلان ماسک»، یعنی xAI، نسخه جدید چت‌بات خود، یعنی Grok-1.5 را معرفی کرد. حالا در ادامه رقابت این شرکت با OpenAI، مدل چندوجهی Grok-1.5 Vision یا Grok-1.5V رونمایی شده است. این هوش مصنوعی اکنون علاوه‌ بر آنکه می‌تواند متن را درک کند، قادر به پردازش نمودار، اسکرین‌شات‌ و تصاویر گوناگون است.

براساس اعلام xAI، نسخه Grok-1.5V می‌تواند با مدل‌های چندوجهی پیشرفته دیگر در بخش‌هایی مثل استدلال چندرشته‌ای، درک نمودارهای علمی، چارت‌ها و تصاویر رقابت کند. Grok-1.5 ویژن به‌زودی برای افراد منتخب و برخی از کاربران فعلی این چت‌بات در دسترس خواهد بود.

Grok ویژن با قابلیت پردازش داده‌های تصویری و چندوجهی

xAI نسخه چندوجهی Grok را در هفت بنچمارک مختلف با دیگر رقبا مانند GPT-4V مقایسه کرده که در برخی از آن‌ها، این مدل برتری قابل‌توجهی داشته است. خواندن متن در تصویر، فهم مسائل ریاضی، تبدیل فلوچارت به کد پایتون، تولید یک داستان از نقاشی و تبدیل جدول به فرمت فایل CSV از قابلیت‌های جدید نسخه ویژن Grok است.

مقایسه Grok-1.5V با دیگر رقبا در بنچمارک‌های مختلف

xAI مدل چندوجهی خود را با رقیب‌هایی مثل GPT-4V ،Claude 3Sonnet و جمینای پرو ۱٫۵ مقایسه کرده و مدعی است که Grok-1.5V در بنچمارک RealWorldQA از رقبای خود بهتر عمل می‌کند؛ این بنچمارک جدید برای ارزیابی میزان درک دنیای واقعی ایجاد شده است.

بنچمارک RealWorldQA با استفاده از ۷۰۰ تصویر به همراه پرسش و پاسخ برای هر مورد ایجاد شده است. در این تصاویر وسایل نقلیه گوناگون و اشیای دنیای واقعی وجود دارند. xAI این بنچمارک را با مجوز CC یا Creative Commons برای عموم منتشر می‌کند.

در اینجا Grok یک فلوچارت را که روی وایت‌برد کشیده شده است، به کد پایتون تبدیل می‌کند.

شرکت هوش مصنوعی ایلان ماسک از زمانی که چت‌بات آن برای اولین‌بار در سال ۲۰۲۳ رونمایی شد، پیشرفت‌های زیادی داشته و دائماً در تلاش است تا با OpenAI و دیگر شرکت‌های پیشتاز هوش مصنوعی رقابت کند. اما این چت‌بات در این مدت چندان بی‌حاشیه نیز نبوده است؛ اخیراً محققان دریافته‌اند که چت‌بات Grok می‌تواند درباره اقدامات مجرمانه به کاربران اطلاعات دهد.

بااین‌حال، xAI به‌دنبال ساختن «هوش جامع مصنوعی سودمند» با قابلیت درک جهان است. این هدف نشان می‌دهد که در ماه‌های آینده به‌روزرسانی‌های قابل‌توجهی برای درک چندوجهی و قابلیت‌های هوش مصنوعی مولد به Grok خواهد آمد.

منبع : دیجیاتو

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد.


Type The Red Captcha Characters Below.