کمیته رکن چهارم – محققان سطح پیشرفته ای از هوش مصنوعی را ارائه کرده اند که با تلفیق صدا، تصویر و متن، درک بهتری از دنیای اطراف پیدا میکند.
کوارتز در مطلبی خواندنی نوشت: بدون شک اگر می خواهیم روباتها در آینده ارتباط نزدیکی با زندگی انسانها داشته باشند باید آنها را به سطحی از پیشرفت برسانیم که توانایی چشمگیری در درک دنیای اطرافشان داشته باشند.
در این صورت فرض کنیم روباتی صدای پارس کردن سگی را بشنود. روبات باید بداند که علت پارس کردن سگ چیست و اصولا سگ چه نوع حیوانی است؟
طی سالهای اخیر برای توسعه فناوری هوش مصنوعی به این مقوله توجه شده است. بدین ترتیب روباتهایی ساخته می شوند که قابلیت تشخیص تصاویر، صداها و درک متنهای مختلف را دارند. در واقع الگوریتمهایی ارایه شده که هر یک می توانند روباتی را در تشخیص یکی از این موارد یاری کنند.
اما تصور کنید که انسان در یک زمان تنها قادر به درک یکی از این حواس باشد. به بیان بهتر، امکان هماهنگ سازی میان آنچه که می شنویم و آنچه که می بینیم وجود نداشته باشد. قطعا این آن چیزی نیست که محققان عرصه هوش مصنوعی به دنبال آن هستند.
اکنون محققان دانشگاه MIT و گوگل در دو پروژه مطالعاتی مجزا گامهای اولیه را برداشته اند. آنها در تلاش برای ارایه سطح پیشرفته ای از هوش مصنوعی هستند که قابلیت دیدن، شنیدن و خواندن به شیوه به هم پیوسته را داشته باشد.
کارشناسان عملیاتی شدن چنین پروژه ای را ضامن موفقیت دانشمندان در پروژه آموزش به روباتهای هوشمند در درک بهتر دنیای اطرافشان می دانند.