RoboCat: A self-improving robotic agent

 RoboCat: un agente robótico que se mejora a sí mismo

El nuevo agente de la fundación aprende a operar diferentes brazos robóticos, resuelve tareas con tan solo 100 demostraciones y mejora a partir de datos autogenerados.

Los robots se están convirtiendo rápidamente en parte de nuestra vida cotidiana, pero a menudo solo están programados para realizar bien tareas específicas. Si bien aprovechar los avances recientes en IA podría conducir a robots que podrían ayudar de muchas más maneras, el progreso en la construcción de robots de uso general es más lento en parte debido al tiempo necesario para recopilar datos de entrenamiento del mundo real. 

Nuestro último artículo presenta un agente de inteligencia artificial para la robótica que se mejora a sí mismo, RoboCat, que aprende a realizar una variedad de tareas en diferentes brazos y luego autogenera nuevos datos de entrenamiento para mejorar su técnica. 

Investigaciones anteriores han explorado cómo desarrollar robots que puedan aprender a realizar múltiples tareas a escala y combinar la comprensión de los modelos de lenguaje con las capacidades del mundo real de un robot ayudante. RoboCat es el primer agente que resuelve y se adapta a múltiples tareas y lo hace a través de diferentes robots reales.

RoboCat aprende mucho más rápido que otros modelos de última generación. Puede asumir una nueva tarea con tan solo 100 demostraciones porque se basa en un conjunto de datos grande y diverso. Esta capacidad ayudará a acelerar la investigación en robótica, ya que reduce la necesidad de capacitación supervisada por humanos y es un paso importante hacia la creación de un robot de propósito general.

Cómo se mejora RoboCat

RoboCat se basa en nuestro modelo multimodal Gato , que puede procesar lenguaje, imágenes y acciones tanto en entornos físicos como simulados. Combinamos la arquitectura de Gato con un gran conjunto de datos de entrenamiento de secuencias de imágenes y acciones de varios brazos robóticos que resuelven cientos de tareas diferentes.


Después de esta primera ronda de capacitación, lanzamos a RoboCat a un ciclo de capacitación de "superación personal" con un conjunto de tareas nunca antes vistas. El aprendizaje de cada nueva tarea siguió cinco pasos: 

  1. Recopile de 100 a 1000 demostraciones de una nueva tarea o robot, usando un brazo robótico controlado por un humano.
  2. Ajuste RoboCat en esta nueva tarea/brazo, creando un agente derivado especializado.
  3. El agente derivado practica en esta nueva tarea/brazo un promedio de 10 000 veces, generando más datos de capacitación.
  4. Incorpore los datos de demostración y los datos autogenerados en el conjunto de datos de capacitación existente de RoboCat.
  5. Entrene una nueva versión de RoboCat en el nuevo conjunto de datos de entrenamiento.

Comentarios

Entradas más populares de este blog

Scaling data-driven robotics with reward sketching and batch reinforcement learning

Control de robot de paso largo potenciado por ChatGPT en varios entornos