Scaling data-driven robotics with reward sketching and batch reinforcement learning

mayo 11, 2023

Al aprovechar un conjunto de datos cada vez mayor de la experiencia del robot, aprendemos políticas de control para un conjunto diverso y creciente de tareas de manipulación relacionadas. Para que esto sea posible, presentamos bosquejo de recompensas: una forma efectiva de obtener preferencias humanas

para aprender la función de recompensa para una nueva tarea. esta recompensa luego se usa para anotar retrospectivamente todos los datos históricos. datos, recopilados para diferentes tareas, con recompensas previstas para la nueva tarea. El conjunto de datos masivo anotado resultante puede entonces

utilizarse para aprender políticas de manipulación con refuerzo por lotes aprendizaje (RL) de la entrada visual de una manera completamente fuera de línea, es decir, sin interacciones con el robot real. Este enfoque hace que posible escalar RL en robótica, ya que ya no necesitamos ejecutar

el robot para cada paso del aprendizaje. Mostramos que los entrenados Los agentes de RL por lotes, cuando se implementan en robots reales, pueden realizar una variedad de tareas desafiantes que implican múltiples interacciones entre objetos rígidos o deformables. Además, muestran una importante

grado de robustez y generalización. En algunos casos, incluso superar a los teleoperadores humanos.

source: https://arxiv.org/pdf/1909.12200.pdf

Buscar este blog

Robotica e Inteligencia Artificial

Scaling data-driven robotics with reward sketching and batch reinforcement learning

Comentarios

Publicar un comentario

Entradas más populares de este blog

Reinforcement Learning y Robotica

RoboCat: A self-improving robotic agent