Puntos de interés:
- Hoy, anunciamos el modelo Video Joint Embedding Predictive Architecture (V-JEPA), un paso fundamental en el avance de machine intelligence con una comprensión más fundamentada del mundo.
- Este ejemplo inicial de modelo del mundo físico destaca en la detección y comprensión de interacciones muy detalladas entre objetos.
- Manteniendo nuestra visión en favor de la ciencia abierta responsable, publicamos este modelo bajo una licencia Creative Commons no comercial para que los investigadores puedan seguir explorándolo.
Como humanos, gran parte de lo que aprendemos sobre el mundo que nos rodea, sobre todo en las primeras etapas de la vida, lo obtenemos mediante la observación. Por ejemplo, la tercera ley del movimiento de Newton: Incluso un bebé (o un gato) puede intuir, tras golpear varios objetos de una mesa y observar los resultados, que lo que sube debe bajar. No necesita horas de instrucción ni leer miles de libros para llegar a ese resultado. Tu modelo interno del mundo -una comprensión contextual basada en un modelo mental del mundo- predice esas consecuencias por ti, y es muy eficaz.
“V-JEPA es un paso hacia una comprensión más fundamentada del mundo para que las máquinas puedan lograr un razonamiento y una planificación más generalizados”, afirma el vicepresidente y director científico de IA en Meta, Yann LeCun, que propuso las Joint Embedding Predictive Architectures (JEPA) originales en 2022. “Nuestro objetivo es construir un machine intelligence avanzado que pueda aprender de forma más similar a como lo hacen los humanos, formando modelos internos del mundo que les rodea para aprender, adaptarse y elaborar planes de manera eficiente a la hora de completar tareas complejas.”
V-JEPA es un modelo no generativo que aprende prediciendo partes perdidas o enmascaradas de un vídeo en un espacio de representación abstracto. Esto es similar a cómo nuestra Image Joint Embedding Predictive Architecture (I-JEPA) compara representaciones abstractas de imágenes (en lugar de comparar los píxeles en sí). A diferencia de los enfoques generativos que intentan rellenar todos los píxeles que faltan, V-JEPA tiene la flexibilidad de descartar información impredecible, lo que se traduce en una mejora de la eficacia de la formación y el muestreo por un factor de entre 1,5x y 6x.
Dado que adopta un enfoque de aprendizaje autosupervisado, V-JEPA se preentrena completamente utilizando datos sin etiquetar. Las etiquetas sólo se utilizan para adaptar el modelo a una tarea concreta después del preentrenamiento. Este tipo de arquitectura resulta más eficaz que los modelos anteriores, tanto en lo que se refiere al número de ejemplos etiquetados necesarios como a la cantidad total de esfuerzo dedicado al aprendizaje incluso de los datos no etiquetados. Con V-JEPA, hemos observado un aumento de la eficiencia en ambos frentes.
Con V-JEPA, enmascaramos una gran parte del vídeo para que al modelo sólo se le muestre una pequeña parte del contexto. A continuación, pedimos al predictor que rellene los espacios en blanco de lo que falta, no en términos de píxeles reales, sino como una descripción más abstracta en este espacio de representación.
Metodología de enmascaramiento
V-JEPA no se entrenó para comprender un tipo concreto de acción. En su lugar, utilizó un entrenamiento auto supervisado en diferentes vídeos y aprendió una serie de cosas sobre cómo funciona el mundo. El equipo también tuvo muy en cuenta la estrategia de enmascaramiento: si no se bloquean grandes zonas del vídeo y se toman muestras aleatorias de fragmentos aquí y allá, la tarea resulta demasiado fácil y el modelo no aprende nada especialmente complicado sobre el mundo.
También es importante señalar que, en la mayoría de los vídeos, las cosas evolucionan con cierta lentitud a lo largo del tiempo. Si se enmascara una parte del vídeo pero sólo en un instante concreto en el tiempo y el modelo puede ver lo que vino inmediatamente antes y/o inmediatamente después, también se facilitan demasiado las cosas y es casi seguro que el modelo no aprenderá nada interesante. Por eso, el equipo utilizó un enfoque en el que enmascaraba partes del vídeo tanto en el espacio como en el tiempo, lo que obliga al modelo a aprender y desarrollar una comprensión de la escena.
Predicciones eficientes
Hacer estas predicciones en el espacio de representación abstracta es importante porque permite al modelo centrarse en la información conceptual de más nivel que contiene el vídeo sin preocuparse por el tipo de detalles que suelen carecer de importancia para las tareas posteriores. Al fin y al cabo, si un vídeo muestra un árbol, lo más probable es que no te preocupen los movimientos minuciosos de cada hoja.
Una de las razones por las que estamos entusiasmados con esta evolución es que V-JEPA es el primer modelo para vídeo que es bueno en “evaluaciones congeladas”, esto significa que hacemos todo nuestro preentrenamiento auto supervisado en el codificador y el predictor, y luego no volvemos a tocar esas partes del modelo. Cuando queremos adaptarlas para aprender una nueva habilidad, simplemente entrenamos una pequeña capa especializada ligera o una pequeña red adicional, que es muy eficiente y rápida.
Los trabajos anteriores tenían que hacer un reajuste completo, es decir, que después de pre entrenar tu modelo, cuando quieres que sea realmente bueno en el reconocimiento detallado mientras estás adaptándolo para asumir esa tarea, tienes que actualizar los parámetros o los pesos en todo tu modelo. Y entonces ese modelo se especializa en hacer esa única tarea y ya no servirá para nada más. Si quieres enseñar al modelo una tarea diferente, tienes que utilizar datos diferentes, y tienes que especializar todo el modelo para esta otra tarea. Con V-JEPA, como hemos demostrado en este trabajo, podemos pre entrenar el modelo una vez sin datos etiquetados, corregirlo y, a continuación, reutilizar esas mismas partes del modelo para varias tareas diferentes, como la clasificación de acciones, el reconocimiento de interacciones detalladas entre objetos y la localización de actividades.
Vías para futuras investigaciones…
Aunque la «V» de V-JEPA significa “vídeo”, por ahora sólo tiene en cuenta el contenido puramente visual de los vídeos. Un enfoque más multimodal es un paso obvio, por lo que estamos evaluando la posibilidad de incorporar audio junto con los visuales.
Como prueba de concepto, el modelo V-JEPA actual destaca en las interacciones detalladas de objetos y en la distinción de interacciones detalladas entre objetos que se producen a lo largo del tiempo. Por ejemplo, si el modelo tiene que ser capaz de distinguir entre alguien que suelta un bolígrafo, alguien que lo coge y alguien que finge que lo suelta, V-JEPA es bastante bueno en comparación con los métodos anteriores que realizaban esta tarea de reconocimiento de acciones de alto grado. Sin embargo, estas cosas funcionan en escalas de tiempo relativamente cortas. Si le enseñas a V-JEPA un clip de vídeo de unos pocos segundos, quizá hasta 10 segundos, lo hará genial. Así que otro paso importante para nosotros es pensar en la planificación y en la capacidad del modelo para hacer predicciones en un periodo más largo.
…y el camino hacia el AMI
Hasta ahora, nuestro trabajo con V-JEPA se ha centrado principalmente en la percepción, es decir, en la comprensión de los contenidos de varias secuencias de vídeo para obtener cierto contexto sobre el mundo que nos rodea. El predictor de esta Joint Embedding Predictive Architecture sirve como modelo del mundo físico: no es necesario ver todo lo que ocurre en el fotograma para que, aun así, puedas decirnos conceptualmente lo que está ocurriendo allí. Como siguiente paso, queremos mostrar cómo podemos utilizar este tipo de predictor o modelo del mundo para la planificación o la toma de decisiones secuenciales.
Sabemos que es posible entrenar modelos JEPA con datos de vídeo sin necesidad de una supervisión estricta y que pueden ver vídeos como lo haría un bebé, observando el mundo pasivamente, aprendiendo un montón de cosas interesantes sobre cómo entender el contexto de esos vídeos de tal manera que, con una pequeña cantidad de datos etiquetados, se puede adquirir rápidamente una nueva tarea y la capacidad de reconocer diferentes acciones.
V-JEPA es un modelo de investigación y estamos explorando varias aplicaciones futuras. Por ejemplo, esperamos que el contexto que proporciona V-JEPA pueda ser útil para nuestro trabajo de embodied IA, así como para nuestro trabajo de creación de un asistente de IA contextual para las futuras gafas de realidad aumentada. Creemos firmemente en el valor de la ciencia abierta y responsable, y por eso publicamos el modelo V-JEPA bajo licencia CC BY-NC para que otros investigadores puedan ampliar este trabajo.
Puedes ampliar la información aquí