Scaling data-driven robotics with reward sketching and batch reinforcement learning

Al aprovechar un conjunto de datos cada vez mayor de la experiencia del robot, aprendemos políticas de control para un conjunto diverso y creciente de tareas de manipulación relacionadas. Para que esto sea posible, presentamos bosquejo de recompensas: una forma efectiva de obtener preferencias humanas

para aprender la función de recompensa para una nueva tarea. esta recompensa luego se usa para anotar retrospectivamente todos los datos históricos. datos, recopilados para diferentes tareas, con recompensas previstas para la nueva tarea. El conjunto de datos masivo anotado resultante puede entonces

utilizarse para aprender políticas de manipulación con refuerzo por lotes aprendizaje (RL) de la entrada visual de una manera completamente fuera de línea, es decir, sin interacciones con el robot real. Este enfoque hace que posible escalar RL en robótica, ya que ya no necesitamos ejecutar

el robot para cada paso del aprendizaje. Mostramos que los entrenados Los agentes de RL por lotes, cuando se implementan en robots reales, pueden realizar una variedad de tareas desafiantes que implican múltiples interacciones entre objetos rígidos o deformables. Además, muestran una importante

grado de robustez y generalización. En algunos casos, incluso superar a los teleoperadores humanos. 


source: https://arxiv.org/pdf/1909.12200.pdf

Comentarios

Entradas más populares de este blog

RoboCat: A self-improving robotic agent

Control de robot de paso largo potenciado por ChatGPT en varios entornos