El 'Aprendizaje de refuerzo' profundo está enseñando a los robots nuevas habilidades más rápido que nunca

$config[ads_kvadrat] not found
Anonim

Los robots están aprendiendo cómo completar tareas en mundos virtuales acelerados, desarrollando habilidades en cuestión de horas que de otra manera podrían llevar meses. Aprendizaje de refuerzo profundo simulado (o RL profundo) significa una habilidad que normalmente tomaría 55 días para un A.I. aprender en el mundo real toma solo un día en el aula hiper-acelerada.

"Tiene el potencial de revolucionar realmente lo que podemos hacer en el dominio de la robótica", dijo Raia Hadsell, científica investigadora de Google DeepMind, en la Cumbre Re-Work Deep Learning en Londres el jueves. "Podemos aprender habilidades a nivel humano".

Puede sonar contraintuitivo, ya que seguramente el objetivo de los robots es que los programadores puedan enseñarles a hacer cosas, ¿no? Sin embargo, al diseñar una máquina que funciona en el mundo real, los robots necesitan una gran cantidad de datos para comprender cómo realizar una tarea en una situación desconocida. AI. puede usar estos datos para "aprender" una habilidad basada en todas las instancias que vinieron antes.

El aprendizaje de refuerzo profundo recopila esos datos de manera similar a como aprenden los humanos: un robot completará una tarea repetidamente, como atrapar una pelota, y registrará los datos para crear una imagen de la mejor manera de atrapar una pelota en una situación nueva. Cuando DeepMind usó el modelo en 2013 para enseñarle a un robot a dominar los juegos Atari, simplemente sentándolo frente a la pantalla y diciéndole el objetivo final, a la comunidad científica le encantó.

El problema es que esto lleva una eternidad. Necesitas lanzar bolas a un robot repetidamente, o en el caso de Atari, deja al robot solo en su habitación por un tiempo. Al ejecutar una simulación de MuJoCo, combinada con una red neuronal progresiva, los capacitadores pueden ejecutar un programa que imita al robot, transfiere los comportamientos aprendidos al robot y asigna los movimientos virtuales al mundo real.

"Podemos ejecutar esos simuladores todo el día y toda la noche", dijo Hadsell.

los resultados hablan por si mismos. Este robot, que obtuvo su diploma de captura, ahora puede seguir las bolas virtuales como si fueran reales, preparándolo para el gran día cuando se le pide que atrape una bola real:

$config[ads_kvadrat] not found