RT-2: El nuevo modelo traduce la visión y el lenguaje en acción

Robotic Transformer 2 (RT-2)


Robotic Transformer 2 (RT-2) es un modelo novedoso de visión-lenguaje-acción (VLA) que aprende de datos web y robóticos y traduce este conocimiento en instrucciones generalizadas para el control robótico.

Los modelos de lenguaje de visión (VLM) de alta capacidad se entrenan en conjuntos de datos a escala web, lo que hace que estos sistemas sean notablemente buenos para reconocer patrones visuales o de lenguaje y operar en diferentes idiomas. Pero para que los robots alcancen un nivel similar de competencia, necesitarían recopilar datos de robots, de primera mano, en cada objeto, entorno, tarea y situación. 

En nuestro artículo , presentamos Robotic Transformer 2 (RT-2), un modelo novedoso de visión-lenguaje-acción (VLA) que aprende de datos web y robóticos, y traduce este conocimiento en instrucciones generalizadas para el control robótico, al tiempo que retiene web- capacidades de escala.

Adaptación de VLM para el control robótico

RT-2 se basa en VLM que toman una o más imágenes como entrada y producen una secuencia de tokens que, convencionalmente, representan texto en lenguaje natural. Dichos VLM se han capacitado con éxito en datos a escala web para realizar tareas, como respuestas visuales a preguntas, subtítulos de imágenes o reconocimiento de objetos. En nuestro trabajo, adaptamos el modelo Pathways Language and Image ( PaLI-X ) y Pathways Language model Embodied ( PaLM-E ) para actuar como la columna vertebral de RT-2.

Generalización y habilidades emergentes

Realizamos una serie de experimentos cualitativos y cuantitativos en nuestros modelos RT-2, en más de 6000 pruebas robóticas. Al explorar las capacidades emergentes de RT-2, primero buscamos tareas que requirieran combinar el conocimiento de los datos a escala web y la experiencia del robot, y luego definimos tres categorías de habilidades: comprensión de símbolos, razonamiento y reconocimiento humano. 

Cada tarea requería comprender conceptos semánticos visuales y la capacidad de realizar un control robótico para operar con estos conceptos. Se requieren comandos como "recoge la bolsa que está a punto de caerse de la mesa" o "mueve el plátano a la suma de dos más uno", donde se le pide al robot que realice una tarea de manipulación en objetos o escenarios nunca vistos en los datos robóticos. conocimiento traducido de datos basados ​​en la web para operar. 

Ref: https://robotics-transformer2.github.io/assets/rt2.pdf

Comentarios

Entradas más populares de este blog

Scaling data-driven robotics with reward sketching and batch reinforcement learning

RoboCat: A self-improving robotic agent

Control de robot de paso largo potenciado por ChatGPT en varios entornos