Scaling data-driven robotics with reward sketching and batch reinforcement learning
Al aprovechar un conjunto de datos cada vez mayor de la experiencia del robot, aprendemos políticas de control para un conjunto diverso y creciente de tareas de manipulación relacionadas. Para que esto sea posible, presentamos bosquejo de recompensas: una forma efectiva de obtener preferencias humanas
para aprender la función de recompensa para una nueva tarea. esta recompensa luego se usa para anotar retrospectivamente todos los datos históricos. datos, recopilados para diferentes tareas, con recompensas previstas para la nueva tarea. El conjunto de datos masivo anotado resultante puede entonces
utilizarse para aprender políticas de manipulación con refuerzo por lotes aprendizaje (RL) de la entrada visual de una manera completamente fuera de línea, es decir, sin interacciones con el robot real. Este enfoque hace que posible escalar RL en robótica, ya que ya no necesitamos ejecutar
el robot para cada paso del aprendizaje. Mostramos que los entrenados Los agentes de RL por lotes, cuando se implementan en robots reales, pueden realizar una variedad de tareas desafiantes que implican múltiples interacciones entre objetos rígidos o deformables. Además, muestran una importante
grado de robustez y generalización. En algunos casos, incluso superar a los teleoperadores humanos.
Comentarios
Publicar un comentario