کمیته رکن چهارم – این ابزار که MGIE نام دارد، هماکنون از طریق GitHub برای دانلود در دسترس است.
محققان اپل مدل هوش مصنوعی جدیدی را منتشر کردهاند که به کاربران اجازه میدهد بدون نیاز به نرمافزارهای ویرایش عکس، تغییرات مدنظر خود در تصاویر را با دستورات زبانی توصیف کنند.
براساس گزارشهای موجود، این مدل که MGIE نام دارد، با همکاری محققان اپل و دانشگاه کالیفرنیا، سانتا باربارا ساخته شده است و میتواند از طریق پیامهای متنی، تصاویر را برش داده، اندازه آنها را تغییر دهد، بچرخاند و به آن فیلترهایی اضافه کنند.
MGIE که مخفف MLLM-Guided Image Editing است، میتواند برای کارهای ساده و پیچیدهتر مربوط به ویرایش تصویر مانند تغییر اشیاء خاص یک عکس مورد استفاده قرار بگیرد. در این مدل، دو کاربرد متفاوت مدلهای زبان چندوجهی را با یکدیگر ترکیب میکند. ابتدا یاد میگیرد که چگونه درخواست کاربران را تفسیر کند، سپس تصور میکند که تغییر مدنظر کاربر چگونه به نظر میرسد.
برای ویرایش یک عکس با MGIE، کاربران فقط نیاز است تا تغییر موردنظر خود را تایپ کنند. محققان در مقاله خود برای نمایش کاربرد این مدل هوش مصنوعی، از تصویر یک پیتزا پپرونی استفاده کردند. آنها دستور «آن را سالمتر کن» را به مدل ارائه کردند و در مقابل، MGIE در تصویر خود از سبزیجات بیشتری استفاده کرده است. همچنین عکسی از چند ببر در این مقاله نیز وجود دارد که بسیار تاریک است و محققان با ثبت دستور «اضافهکردن کنتراست بیشتر برای شبیهسازی نور»، تصویر روشنتری ایجاد کردند.
محققان در مقاله خود میگویند:
«ما مطالعات گستردهای را از جنبههای مختلف ویرایش انجام میدهیم و نشان میدهیم که MGIE ما بهطور موثر عملکرد خود را در عین حفظ کارایی رقابتی بهبود میبخشد. ما همچنین معتقدیم که چارچوب هدایتشده توسط MLLM، در آینده میتواند به تحقیقات حوزه بینایی و زبان کمک کند.»
اپل MGIE را از طریق GitHub برای دانلود در دسترس قرار داده و همچنین نسخه آزمایشی تحت وب آن را در Hugging Face Spaces منتشر کرده است. اپل هنوز برنامههای خود در زمینه هوش مصنوعی را اعلام نکرده است و مشخص نیست که چه برنامهای برای این مدل دارد.
منبع : دیجیاتو