Reinforcement Learning y Robotica

Visión en tiempo real utilizando computadoras locales y remotas

El aprendizaje en tiempo real es crucial para los agentes robóticos que se adaptan a entornos no estacionarios en constante cambio. Una configuración común para un agente robótico es tener dos computadoras diferentes simultáneamente: una computadora local con recursos limitados conectada al robot y una poderosa computadora remota conectada de forma inalámbrica. 

Dada una configuración de este tipo, no está claro hasta qué punto el rendimiento de un sistema de aprendizaje puede verse afectado por las limitaciones de recursos y cómo usar de manera eficiente la poderosa computadora conectada de forma inalámbrica para compensar cualquier pérdida de rendimiento. En este documento, implementar un sistema de aprendizaje en tiempo real llamado sistema distribuido remoto local (ReLoD) para distribuir los cálculos de dos algoritmos de aprendizaje de refuerzo profundo (RL), Soft Actor-Critic (SAC) y Proximal Policy Optimization (PPO), entre una computadora local y una remota. 

El desempeño del sistema se evalúa en dos tareas de control basadas en visión desarrolladas utilizando un brazo robótico y un robot móvil. Nuestros resultados muestran que el rendimiento de SAC se degrada mucho en una computadora local con recursos limitados. Sorprendentemente, cuando todos los cálculos del sistema de aprendizaje se implementan en una estación de trabajo remota, SAC no compensa la pérdida de rendimiento, lo que indica que, sin una consideración cuidadosa, el uso de una computadora remota potente puede no resultar en una mejora del rendimiento. Sin embargo, una distribución cuidadosamente elegida de los cálculos de SAC mejora consistente y sustancialmente su desempeño en ambas tareas. Por otro lado, el rendimiento de PPO no se ve afectado en gran medida por la distribución de los cálculos. Además, cuando todos los cálculos ocurren únicamente en una poderosa computadora conectada, el rendimiento de nuestro sistema permanece a la par con un sistema existente que está bien ajustado para usar una sola máquina. ReLoD es el único sistema disponible públicamente para RL en tiempo real que se aplica a múltiples robots para tareas basadas en visión.



Comentarios

Entradas más populares de este blog

Scaling data-driven robotics with reward sketching and batch reinforcement learning

RoboCat: A self-improving robotic agent

Control de robot de paso largo potenciado por ChatGPT en varios entornos