El equipo de Investigación sobre Inteligencia Artificial Fundamental de Meta (FAIR) se centra en lograr machine intelligence de avanzada (AMI) y utilizarla para impulsar productos e innovación en beneficio de todos. Hoy, estamos encantados de compartir algunas de nuestras investigaciones y modelos más recientes que apoyan nuestro objetivo de lograr AMI, y nuestro compromiso de larga trayectoria de compartir ciencia abierta y reproducible.
Meta PARTNR: Desbloqueando la colaboración entre humanos y robots
Imagina un mundo en el que los robots sean compañeros intuitivos en nuestra vida cotidiana. Limpian, recogen entregas y ayudan a cocinar, al tiempo que comprenden nuestras necesidades y se adaptan al entorno dinámico de un hogar atareado. Hoy nos complace presentar PARTNR, un marco de investigación que nos acerca a esta realidad impulsando la investigación sobre la colaboración fluida entre humanos y robots. La mayoría de los robots actuales funcionan de forma aislada, lo que limita su potencial como útiles agentes de asistencia del futuro. Con PARTNR, pretendemos cambiar el statu quo abriendo un sistema de referencia, un conjunto de datos y un modelo a gran escala para estudiar la colaboración entre humanos y robots en tareas cotidianas. En esencia, PARTNR ofrece un mecanismo para entrenar robots sociales mediante simulaciones a gran escala, seguidas de su despliegue en el mundo real.
PARTNR se apoya en trabajos anteriores de gran impacto que se han compartido con la comunidad de código abierto. Se basa en los avances logrados con Habitat 1.0 que entrenó a robots virtuales para navegar por escaneados 3D de casas reales, y Habitat 2.0 que entrenó a robots virtuales para limpiar casas reordenando objetos. Con Habitat 3.0, un simulador diseñado para entrenar modelos de colaboración entre humanos y robots, hemos dado otro salto adelante. Habitat 3.0 permitió entrenar modelos de colaboración humano-robot a gran escala, lo que no es factible en el mundo real por cuestiones de seguridad y escalabilidad.
También presentamos la prueba de referencia PARTNR, cuyo objetivo es evaluar los robots colaborativos y garantizar su rendimiento tanto en entornos simulados como en el mundo real. Nuestra prueba consta de 100.000 tareas, incluidas tareas domésticas como la limpieza de platos y juguetes. También publicamos el conjunto de datos PARTNR, que consiste en demostraciones humanas de las tareas de PARTNR en simulación, y que puede utilizarse para entrenar modelos de IA incorporados. La prueba de referencia PARTNR pone en evidencia las principales deficiencias de los modelos actuales, como la escasa coordinación y los fallos en el seguimiento de las tareas y la recuperación tras los errores. Animamos a la comunidad académica a seguir avanzando a partir de nuestro trabajo e impulsar el progreso en el campo de la colaboración entre humanos y robots.
También hemos avanzado en modelos que pueden colaborar con humanos tanto en entornos de simulación como en el mundo real. Utilizando datos de simulación a gran escala, hemos entrenado un modelo de planificación a gran escala que supera a los modelos de referencia más avanzados tanto en velocidad como en rendimiento. Este modelo multiplica por 8,6 su velocidad y permite a los humanos completar tareas con un 24% más de eficacia que los modelos de alto rendimiento existentes. Es capaz de interpretar instrucciones de largo alcance, descomponer tareas complejas en pasos procesables y proporcionar una asistencia significativa a los usuarios humanos. Hemos desplegado con éxito este modelo en el Spot de Boston Dynamics, demostrando su capacidad para trabajar junto a los humanos en entornos reales. Para aumentar la transparencia y la confianza, también hemos desarrollado una interfaz de realidad mixta que visualiza las acciones y los procesos de pensamiento del robot, ofreciendo una ventana a su toma de decisiones.
El potencial de innovación y desarrollo en el campo de la colaboración entre humanos y robots es enorme. Con PARTNR, queremos reimaginar los robots como futuros socios, y no solo como agentes, e impulsar la investigación en este apasionante campo.
Democratizando la tecnología de lenguaje para el Decenio Internacional de las Lenguas Indígenas
El lenguaje es una parte fundamental de lo que somos y, sin embargo, muchas personas en todo el mundo están excluidas de la conversación digital porque su lenguaje no está soportado por la tecnología. Para ayudar a reducir esta brecha, invitamos a la comunidad lingüística a asociarse con nosotros para colaborar en la mejora y ampliación de la cobertura de las tecnologías de lenguaje de código abierto de Meta, incluidos el reconocimiento de voz y la traducción automática.
Programa de socios de tecnologías de lenguaje
Buscamos socios que colaboren con nosotros en el avance de las tecnologías de lenguaje, incluidos el reconocimiento de voz y la traducción automática. Nuestros esfuerzos se centran especialmente en las lenguas insuficientemente atendidas, en apoyo de la labor de la UNESCO y como parte de la contribución del sector privado a la capacitación digital en el marco del Decenio Internacional de las Lenguas Indígenas. Buscamos socios que puedan contribuir con más de 10 horas de grabaciones de voz con transcripciones, grandes corpus de texto escrito (más de 200 frases) y conjuntos de frases traducidas en diversos lenguajes. Los socios trabajarán con nuestros equipos para ayudar a integrar estos lenguajes en modelos de reconocimiento del habla y traducción automática basados en IA, que pretendemos convertir en código abierto y poner a disposición de la comunidad. Como socio, también tendrá acceso a talleres dirigidos por nuestros equipos de investigación, en los que aprenderá a aprovechar nuestros modelos de código abierto para crear tecnologías de lenguaje. Nos complace que el Gobierno de Nunavut (Canadá) haya aceptado colaborar con nosotros en esta interesante iniciativa.
Para unirse a nuestro Programa de Socios de Tecnología de Lenguaje, ingresa aquí
Referencia de traducción automática de código abierto
Además de nuestro Programa de Socios de Tecnología de Lenguaje, estamos lanzando una referencia de traducción automática de código abierto de frases cuidadosamente elaboradas por expertos lingüísticos para mostrar la diversidad del lenguaje humano. Le invitamos a acceder a esta referencia en siete idiomas y a contribuir con traducciones que serán de código abierto para otros. Nuestro objetivo es construir colectivamente una referencia de traducción automática multilingüe sin precedentes para la comunidad.
Nuestro compromiso de apoyar más lenguajes y desarrollar tecnologías de código abierto para ellas es constante. En 2022, lanzamos No Language Left Behind (NLLB), un innovador motor de traducción automática de código abierto que sentó las bases para futuras investigaciones y desarrollos en este campo. Al ser el primer modelo neuronal de traducción automática para muchos idiomas, NLLB allanó el camino para futuras innovaciones. Desde su lanzamiento, la comunidad de código abierto se ha basado en este trabajo, ampliando sus capacidades para soportar docenas de lenguajes adicionales. También nos complace que la UNESCO y Hugging Face hayan colaborado con nosotros para construir un traductor de lenguajes basado en NLLB, que anunciamos durante la semana de la Asamblea General de las Naciones Unidas el pasado mes de septiembre. Mientras seguimos desarrollando esta tecnología, nos entusiasma colaborar con las comunidades lingüísticas para mejorar y ampliar la traducción automática y otras tecnologías del lenguaje.
Para apoyar la capacitación digital, que es un área temática clave del Plan de Acción Mundial del Decenio Internacional de las Lenguas Indígenas, hemos introducido recientemente el proyecto de Habla Multilingüe Masiva (MMS), que amplía la transcripción de audio a más de 1.100 idiomas. Hemos seguido mejorando y ampliando sus capacidades, incluida la incorporación del reconocimiento de voz sin disparo, que permite al modelo transcribir audio en idiomas que nunca ha visto antes sin formación previa. Estas tecnologías tienen importantes implicaciones para el apoyo del lenguaje y la accesibilidad, sobre todo para las comunidades más desfavorecidas.
Al promover la aplicación del Decenio Internacional de las Lenguas Indígenas, pretendemos hacer frente a los retos que plantea la proliferación de modelos de lenguaje en inglés y trabajar por la igualdad de representación de todas las lenguas, contribuyendo así a la consecución de los Objetivos de Desarrollo Sostenible de las Naciones Unidas.
Además de su impacto potencial en el apoyo del lenguaje y la accesibilidad, nuestro trabajo también tiene implicaciones más amplias para el desarrollo de AMI. Al trabajar con problemas multilingües y lenguas insuficientemente atendidas, el modelo demuestra la capacidad de aprender a partir de datos mínimos. Estos avances suponen un paso crucial hacia la creación de sistemas inteligentes capaces de adaptarse a nuevas situaciones y aprender de la experiencia.
En última instancia, nuestro objetivo es crear sistemas inteligentes capaces de comprender y responder a necesidades humanas complejas, independientemente de la lengua o el entorno cultural, y construir una tecnología que incluya las lenguas y culturas de nuestro mundo.
Estética de Meta Audiobox: Un nuevo estándar para el procesamiento de audio
Tradicionalmente, medir la estética del audio ha sido una tarea compleja debido a su naturaleza subjetiva. A diferencia de métricas objetivas como la respuesta en frecuencia o la relación señal/ruido, la estética del audio requiere una comprensión matizada de la percepción humana. Hoy nos complace presentar Estética de Meta Audiobox, un modelo que permite la evaluación automática de la estética del audio y proporciona una valoración exhaustiva de la calidad del audio en el habla, la música y el sonido. El modelo realiza predicciones que analizan el disfrute, la utilidad, la complejidad y la calidad de la producción. Afrontar los desafíos que plantea la evaluación subjetiva del audio conduce a mejorar la calidad de los contenidos de audio y a desarrollar modelos generativos de audio más avanzados.
Los métodos de evaluación existentes suelen ofrecer resultados específicos de submodalidades con instrucciones vagas y difíciles de interpretar. Audiobox Aesthetics supera estas limitaciones ofreciendo un enfoque estructurado de la evaluación del audio.
Para desarrollar Audiobox Aesthetics, diseñamos un exhaustivo protocolo de anotación que permitió recopilar 562 horas de datos estéticos de audio. Nuestro conjunto de datos fue anotado por evaluadores profesionales para garantizar la calidad de los datos. El proceso de anotación consistió en evaluar muestras de audio en una escala del uno al diez en cuatro parámetros definidos: calidad de la producción, complejidad de la producción, disfrute del contenido y utilidad del contenido. Este proceso permitió crear una puntuación estética unificada y calibrada para las distintas modalidades de audio, lo que garantizó la coherencia y fiabilidad de las predicciones del modelo.
Leyenda: ▲ Cuanto más alto, mejor. En las cuatro dimensiones de evaluación de la calidad, Audiobox Aesthetics muestra una mejor correlación con el juicio humano que sus competidores en voz, sonido y música.
Extensos experimentos demostraron que Audiobox Aesthetics superaba a trabajos anteriores con mayor correlación con el juicio humano, demostrando su eficacia como métrica automática para la evaluación de la calidad. El modelo, que se publica con una licencia CC-BY 4.0, también mejora la calidad de varios modelos de generación de audio mediante el filtrado de datos y el fomento de la calidad, logrando mejoras significativas en aplicaciones de texto a voz, texto a música y texto a sonido.
Audiobox Aesthetics ya se ha aprovechado para mejorar Meta Movie Gen, ayudando a facilitar contenidos multimedia de alta calidad, impulsando aún más el progreso y la innovación en la industria. Esperamos que este trabajo sirva para mejorar la calidad de los contenidos de audio y apoyar el desarrollo de modelos generativos de audio más sofisticados.
Descargar los pesos y el código del modelo
Transcripciones de mensajes de voz de WhatsApp: Desbloqueando comunicación fluida
Mientras seguimos construyendo el futuro de la conexión humana y la tecnología que la hace posible, lanzamos una actualización en WhatsApp para que la comunicación sea aún más fluida. Las transcripciones de mensajes de voz utilizan tecnología avanzada en el dispositivo para generar transcripciones de mensajes de audio de forma local y segura, garantizando que los mensajes de voz personales estén cifrados de extremo a extremo. Actualmente, esta función está disponible en inglés, español, portugués y ruso, lo que amplía su alcance a diversas comunidades.
El desarrollo de las transcripciones de mensajes de voz ha sido posible gracias a los resultados de la investigación Meta FAIR Seamless Communication. WhatsApp puede seguir innovando y mejorando sus servicios utilizando esta investigación, lo que en última instancia impulsará el progreso hacia el objetivo de lograr AMI con capacidades multilingües. Hemos explorado, desarrollado y compartido ampliamente las mejores prácticas para el ajuste de modelos con la comunidad investigadora para las versiones públicas de los modelos Seamless M4T. Estas técnicas se aplicaron y mejoraron aún más, junto con la destilación, para ajustarlas al género de los mensajes de voz de WhatsApp.
Este avance mejora la experiencia de las personas al tiempo que protege la mensajería privada, y sienta las bases para futuras innovaciones en la comunicación multilingüe.