Robots que aprenden de videos de actividades humanas e interacciones simuladas

Los sistemas de IA de hoy en día muestran habilidades generativas cada vez más sofisticadas en tareas aparentemente creativas. Pero, ¿dónde están los robots? Esta brecha se conoce como la paradoja de Moravec , la tesis de que los problemas más difíciles en IA involucran habilidades sensoriomotoras, no pensamiento o razonamiento abstracto.


Hoy,dos avances importantes hacia agentes de IA incorporados de propósito general capaces de realizar habilidades sensoriomotoras desafiantes:

1- Una corteza visual artificial (llamada VC-1): un modelo de percepción único que, por primera vez, admite una amplia gama de habilidades sensoriomotoras, entornos y encarnaciones. VC-1 está capacitado en videos de personas que realizan tareas cotidianas a partir del innovador conjunto de datos Ego4D creado por Meta AI y socios académicos. Y VC-1 iguala o supera los resultados más conocidos en 17 tareas sensoriomotoras diferentes en entornos virtuales.

2-Un nuevo enfoque llamado coordinación de habilidades adaptativas (sensomotoras) (ASC), que logra un rendimiento casi perfecto (98 por ciento de éxito) en la desafiante tarea de la manipulación móvil robótica (navegar a un objeto, levantarlo, navegar a otra ubicación, colocar el objeto, repetición) en entornos físicos.


Los datos impulsan estos dos avances. La IA necesita datos de los que aprender y, específicamente, la IA incorporada necesita datos que capturen las interacciones con el entorno. Tradicionalmente, estos datos de interacción se recopilan recopilando grandes cantidades de demostraciones o permitiendo que el robot aprenda de las interacciones desde cero. Ambos enfoques requieren demasiados recursos para escalar hacia el aprendizaje de un agente de IA incorporado general. En ambos trabajos, estamos desarrollando nuevas formas para que los robots aprendan, utilizando videos de interacciones humanas con el mundo real e interacciones simuladas dentro de mundos simulados fotorrealistas.

En primer lugar, para que los robots aprendan de las interacciones humanas del mundo real mediante el entrenamiento de un modelo de representación visual de propósito general (una corteza visual artificial) a partir de una gran cantidad de videos egocéntricos. Los videos incluyen nuestro conjunto de datos Ego4D de código abierto, que muestra vistas en primera persona de personas que realizan tareas cotidianas, como ir al supermercado y preparar el almuerzo. En segundo lugar, hemos creado una forma de entrenar previamente a nuestro robot para realizar tareas de reordenamiento de largo plazo en simulación. Específicamente, entrenamos una política en entornos Habitat y transferimos la política zero-shot a un robot Spot real para realizar dichas tareas en espacios desconocidos del mundo real.


sourse: https://ai.facebook.com/blog/robots-learning-video-simulation-artificial-visual-cortex-vc-1/

Comentarios

Entradas más populares de este blog

Scaling data-driven robotics with reward sketching and batch reinforcement learning

RoboCat: A self-improving robotic agent

Control de robot de paso largo potenciado por ChatGPT en varios entornos