Наше майбутнє обіцяє бути заповненим роботами, які виконують замість людей велику частину всієї їх роботи. Але, для того, щоб роботи змогли виконувати людську роботу, їх треба цьому навчити, і основним напрямком в цій справі вважається створення самонавчаючих систем штучного інтелекту. Наприклад, уявіть собі робота, який може «збагатити» свою базу знань про виконання побутових операцій, таких як приготування їжі, просто переглядаючи» навчальні відеоролики, які перебувають на відомому сервісі YouTube. Ця ідея лягла в основу нової самонавчальної системи для роботів , побудованої на базі так званої «глибокої нейронної мережі» (deep neural networks), створеної дослідниками з університету Меріленда і австралійського дослідницького центру NICTA.Метою створення такої системи є поліпшення здатності систем штучного інтелекту до самонавчання. Ця система повинна перевершити за всіма параметрами інші подібні системи, зокрема і систему Robo Brain, якій свого часу було «скормлено» більше мільярда зображень, 120 тисяч відеороликів з YouTube і 100 мільйонів сторінок тексту, містить практичні рекомендації та керівництва користування різною побутовою технікою. На основі всіх даних, зібраних з цих джерел, система Robobrain з’ясувала-вирахувала як краще захоплювати і утримувати різні предмети і інструменти, керуючись тільки зображеннями останніх.
Створюючи нову систему, дослідники зіткнулися з масою труднощів. Головною проблемою було те, що відеоролики не містять ніякої тривимірної інформації, якою маніпулюють системи управління роботів. Це, в свою чергу, робить дуже важким складання зв’язків між об’єктами і діями, такими, як рухи рук, наприклад, при чищенні яєць і нарізці овочів.Але, всі ці проблеми були вирішені шляхом створення технології дуже «глибокого» самонавчання, базою для якої стала технологія розпізнавання об’єктів на зображенні і технологія визначення здійснюваних рухів. Саме такий симбіоз дозволяє системі вивчити який інструмент використовується, які дії і над яким об’єктом виконуються в даний момент часу.
Дані, одержувані від складної системи розпізнавання, надходять на вхід спеціалізованої нейронної мережі CNN (convolutional neural network), яка визначає власне послідовність виконуваних дій, виробляючи на виході набір інструкцій для виконання цих дій і поповнюючи новими даними свою інтелектуальну базу. На цьому етапі за допомогою методу спеціалізованого парсинга (синтаксичного і логічного аналізу) відбувається поділ послідовності дій на ієрархічну і рекурсивні складові.В ході випробувань працездатності нової самонавчальної системи їй була дана можливість аналізу 88 навчальних відеороликів в області кулінарії. В результаті цього вийшла свого роду база команд для роботів, за допомогою яких роботи цілком успішно можуть впоратися з приготуванням тих чи інших страв. А в недалекому майбутньому дослідники планують внести зміни в роботу системи таким чином, щоб вона змогла самонавчатися, спостерігаючи наживо за діями людей.