RT-2: El nuevo modelo traduce la visión y el lenguaje en acción
Robotic Transformer 2 (RT-2)
Robotic Transformer 2 (RT-2) es un modelo novedoso de visión-lenguaje-acción (VLA) que aprende de datos web y robóticos y traduce este conocimiento en instrucciones generalizadas para el control robótico.
Los modelos de lenguaje de visión (VLM) de alta capacidad se entrenan en conjuntos de datos a escala web, lo que hace que estos sistemas sean notablemente buenos para reconocer patrones visuales o de lenguaje y operar en diferentes idiomas. Pero para que los robots alcancen un nivel similar de competencia, necesitarían recopilar datos de robots, de primera mano, en cada objeto, entorno, tarea y situación.
En nuestro artículo , presentamos Robotic Transformer 2 (RT-2), un modelo novedoso de visión-lenguaje-acción (VLA) que aprende de datos web y robóticos, y traduce este conocimiento en instrucciones generalizadas para el control robótico, al tiempo que retiene web- capacidades de escala.
Adaptación de VLM para el control robótico
RT-2 se basa en VLM que toman una o más imágenes como entrada y producen una secuencia de tokens que, convencionalmente, representan texto en lenguaje natural. Dichos VLM se han capacitado con éxito en datos a escala web para realizar tareas, como respuestas visuales a preguntas, subtítulos de imágenes o reconocimiento de objetos. En nuestro trabajo, adaptamos el modelo Pathways Language and Image ( PaLI-X ) y Pathways Language model Embodied ( PaLM-E ) para actuar como la columna vertebral de RT-2.
Generalización y habilidades emergentes
Realizamos una serie de experimentos cualitativos y cuantitativos en nuestros modelos RT-2, en más de 6000 pruebas robóticas. Al explorar las capacidades emergentes de RT-2, primero buscamos tareas que requirieran combinar el conocimiento de los datos a escala web y la experiencia del robot, y luego definimos tres categorías de habilidades: comprensión de símbolos, razonamiento y reconocimiento humano.
Cada tarea requería comprender conceptos semánticos visuales y la capacidad de realizar un control robótico para operar con estos conceptos. Se requieren comandos como "recoge la bolsa que está a punto de caerse de la mesa" o "mueve el plátano a la suma de dos más uno", donde se le pide al robot que realice una tarea de manipulación en objetos o escenarios nunca vistos en los datos robóticos. conocimiento traducido de datos basados en la web para operar.
Comentarios
Publicar un comentario