Una década avanzando en la vanguardia de la IA a través de la investigación abierta

3 años ago

Síntesis:

Celebramos los 10 años del equipo de Investigación Fundamental de IA (FAIR) de Meta.
También presentamos nuevos modelos y conjuntos de datos de IA, como Ego-Exo4D, Audiobox y Seamless Communication, y sus avances en la combinación de vistas en primera persona y externas, generación de audio y traducción de idiomas.

Hoy celebramos el décimo aniversario del equipo de Investigación Fundamental de la IA (FAIR) de Meta. Durante la última década, FAIR ha sido la fuente de muchos avances en IA y un espacio para hacer investigación de forma abierta y responsable. Estamos comprometidos con la ciencia abierta y con compartir nuestro trabajo, ya sean artículos, código, modelos, demos o guías de uso responsable.

En los últimos 10 años hemos logrado grandes avances en la detección de objetos con Segment Anything, que reconoce objetos en imágenes. Además, fuimos de los primeros en introducir técnicas de traducción automática no supervisada, lo que nos permitió crear un modelo capaz de traducir 100 idiomas sin depender del inglés. Esto dio lugar a nuestra iniciativa No Language Left Behind, que recientemente ha ampliado la tecnología de conversión de texto a voz y de voz a texto a más de 1.000 idiomas.

A principios de este año lanzamos Llama, un amplio modelo de lenguaje abierto y pre-entrenado, seguido de Llama 2, que es gratuito para investigación y uso comercial. Y en Connect, presentamos nuevos productos y experiencias de IA que ahora están en manos de millones de personas – la culminación de un trabajo de investigación temprana en el que se basaron los equipos de IA Generativa y de producto de Meta.

Hoy compartimos nuestros últimos avances en Ego-Exo4D, Audiobox y Seamless Communication.

Acercando a los modelos de IA visiones Egocéntricas y Exocéntricas

En nuestros esfuerzos por enseñar a la IA a percibir el mundo a través de nuestros ojos, hemos actualizado Ego-Exo. El último Ego-Exo4D captura simultáneamente vistas en primera persona (egocéntricas) desde una cámara portátil, así como vistas externas (exocéntricas) de cámaras que rodean a la persona. Juntas, estas perspectivas brindan a los modelos de IA una ventana a lo que la gente ve y escucha, combinada con más contexto sobre el entorno.

En el futuro, estos avances en IA permitirán que una persona que use gafas inteligentes adquiera rápidamente nuevas habilidades con un entrenador virtual de IA que la guiará a través de un video instructivo. Por ejemplo, imagina ver a un experto reparar una llanta de bicicleta, hacer malabarismos con una pelota de fútbol o doblar un cisne de origami, y luego poder relacionar sus pasos con tus propias acciones.

Generando voces y efectos de sonido con Audiobox

A principios de este año, presentamos Voicebox, un modelo de IA generativa que puede ayudar con la edición, el sampleado y el estilo del audio. Ahora Audiobox, su sucesor, avanza aún más en la IA generativa para audio. Con Audiobox, puedes usar indicaciones de voz o descripciones de texto para describir sonidos o tipos de habla que te gustaría generar. Por ejemplo, podrías crear una banda sonora con un mensaje como «un río corriendo y pájaros cantando». Incluso puedes generar una voz diciendo: «una mujer joven habla en un tono alto y a un ritmo rápido». Audiobox facilita la creación de audio personalizado para todos sus proyectos.

https://about.fb.com/ltam/wp-content/uploads/sites/14/2023/11/03_Audiobox_Text-to-Audio.mp4?_=1

Desbloqueando la traducción fluida de idiomas

Basándonos en nuestro trabajo con SeamlessM4T, ahora presentamos Seamless Communication: un conjunto de modelos de traducción de IA que preservan mejor la expresión en todos los idiomas y traducen mientras la persona sigue hablando para mejorar la velocidad.

Las versiones anteriores de los servicios de traducción de idiomas a menudo tienen dificultades para captar el tono de voz, las pausas y el énfasis, y pierden señales importantes que nos ayudan a compartir emociones e intenciones. SeamlessExpressiveon es el primer sistema disponible públicamente que desbloquea la comunicación expresiva entre idiomas. Utiliza un modelo que preserva la emoción y el estilo de quien está hablando, y aborda la velocidad y el ritmo del habla. El modelo actualmente funciona para inglés, español, alemán, francés, italiano y chino.

SeamlessStreaming permite conversaciones en tiempo real con alguien que habla un idioma diferente. A diferencia de los sistemas convencionales que traducen cuando la persona ha terminado su frase, SeamlessStreaming traduce mientras sigues hablando, lo que permite al interlocutor escuchar la traducción más rápido.

https://about.fb.com/ltam/wp-content/uploads/sites/14/2023/11/04_Seamless-Overview.mp4?_=2

Meta está en una posición única para resolver los mayores desafíos de la IA. Nuestras inversiones en software, hardware e infraestructura nos permiten entrelazar lo aprendido de nuestra investigación en productos que pueden beneficiar a miles de millones de personas.

FAIR es una pieza fundamental para el éxito de Meta y uno de los únicos grupos en el mundo con todos los requisitos para ofrecer verdaderos avances: algunas de las mentes más brillantes de la industria, una cultura de apertura y, lo más importante, la libertad de realizar investigaciones exploratorias. Esta libertad nos ha ayudado a mantenernos ágiles y contribuir a construir el futuro de la conexión social.

Investigación responsable de IA

Valoramos la investigación responsable de la IA y la apertura porque compartir un trabajo para el escrutinio de pares nos empuja hacia la excelencia y genera confianza en nuestros avances. También nos permite colaborar con la comunidad en general, lo que genera un progreso más rápido y un conjunto más diverso de contribuyentes. Obtén más información sobre cómo llevamos a cabo investigaciones de IA de manera responsable.