آموزش روبات ها برای مدیریت جهان آینده

کمیته رکن چهارم – شرکت OpenAI محیط های شبیه سازی جدیدی را به جعبه ابزار خود اضافه کرد.

شرکت OpenAI اخیرا با بروز رسانی سامانه آموزش هوشمند خود به نام باشگاه (Gym) به ارتقا دهندگان این امکان را می دهد تا به روبات ها نحوه نگه داشتن خودکار، بلند کردن و جابجایی اشیا را آموزش دهند.

سامانه باشگاه که در سال ۲۰۱۶ راه اندازی شد، به عنوان ابزاری برای آموزش ترفندهای جدید از طریق یادگیری تقویتی (RL) به شمار می رود. شرکت مذکور اکنون با افزودن چند محیط شبیه سازی شده به این سامانه به روبات ها آموزش می دهد تا در این محیط مجازی حرکت کرده و یا یکدیگر تعامل داشته باشند.

به عنوان نمونه، می توان از آموزش روبات ها در این محیط شبیه سازی شده برای نواختن آلت موسیقی یا بلند کردن اشیا نام برد. این قابلیت برای سازندگانی که به آموزش سریع روبات ها علاقه مند هستند مفید است؛ زیرا که دیگر نیازی به تنظیم روبات های کند به صورت دستی ندارند.

این رویکرد با الهام گرفتن از هولودک (Holodeck) در فیلم پیشتازان فضا، بسیار سریع تر و آسان تر از آموزش روبات ها در محیط فیزیکی بوده و نمونه نهایی آن در آینده برای هدایت ماشین ها استفاده خواهد شد.

پیتر ولیندر (Peter Welinder) یکی از محققات شرکت مذکور در این رابطه افزود:

همان طور که باشگاه ورزشی واقعی محیط متفاوتی مانند تردمیل، دوچرخه ثابت و دیگر تجهیزات را دارد، باشگاه OpenAI نیز محیط های متفاوتی برای کاربران هوش مصنوعی دارد. برای مثال ، ساخت نحوه قدم زدن یک عروسک یا بالا رفتن خودرو از سراشیبی از محیط های شبیه سازی شده این سامانه هستند.

همه محیط های روباتیک جدید با استفاده از جایزه عدم خطای کدینگ آموزش می بینند. این فرآیند همانند نمونه های یادگیری تقویتی، همان طور که قدم به قدم به هدف نزدیک تر می شوند، جایزه نیز می گیرند. لازم به ذکر است که منظور همان پیش روی به سمت هدف از پیش تعیین شده است. در نتیجه جایزه عدم خاطای کدینگ زمانی اعمال می شوند که کد مربوط به هدف خود برسد.

این گونه تفاوت بین دستور دادن به رایانه برای درست کردن یک ساندویچ با تشویق آن برای فراهم کردن دو تکه نان، سپس امتیاز بیشتر برای در دست گرفتن دو همبرگرو در نهایت امتیاز بیشتر برای تکمیل ساندویچ مشخص می شود.

ولیندر گفت:

اگر بازوی ضربه زننده به پاک هاکی را به عنوان مثال در نظر بگیریم، می بینیم که این بازو در تلاش است تا با حرکات دست از طرفین به پاک ضربه بزند. طبیعتا نمونه سنتی یادگیری تقویتی برای ضربه های نزدیک تر به گل، جایزه در نظر می گیرد. هرچه ضربات نزدیک تر به هدف باشد جایزه ای بزرگ تر منظور می شود. در نتیجه به نوعی با روبات القا می کند که اصطلاحا گرمتر می شوند. اما جایزه عدم خطای کدینگ این پارادایم را محدود تر می کند. به صورتی که دیگر به گرم شدن اشاره نکرده و تنها مشخص می کند اقدام موفقیت آمیز بوده یا شکست خورده. به این ترتیت یادگیری از این طریق دشوارتر خواهد بود.

جایزه عدم خطای کدینگ برای نمایش وضعیت آموزش روبات ها در دنیای واقعی استفاده خواهد شد. برای مثال در هنگام نیاز به یک نوشیدنی تنها کافی است که به روبات گفته شود که چه مقدار نیاز داریم. جزئیاتی از قبیل نحوه گرفتن لیوان، باز کردن در بطری و دیگر موارد از بدیهیات در این سطح محسوب می شود.

از آنجایی که محیط آموزش به صورت منبع باز است، ارتقا دهندگان دیگر نیز می توانند با ایجاد تغییرات، حرکات جدیدی را معرفی کنند

منبع : سایبربان