Uma década de avanços na evolução da IA por meio de pesquisa aberta

3 anos ago

Destaques

Estamos celebrando 10 anos da equipe Fundamental AI Research (FAIR) da Meta.
Também estamos apresentando alguns novos modelos e conjunto de dados de inteligência artificial, incluindo Ego-Exo4D, Audiobox and Seamless Communication, bem como seus avanços na combinação de visões externas e em primeira pessoa, geração de áudio e tradução de idiomas.

https://about.fb.com/br/wp-content/uploads/sites/11/2023/11/23_11-FAIR-10_Master_v12_112823_AI_Meta_WITH-CAPTIONS-1.mp4?_=1

Hoje, estamos comemorando o aniversário de 10 anos da equipe Fundamental AI Research (FAIR) da Meta. Na última década, a FAIR tem sido a fonte de diversas descobertas em inteligência artificial (IA) e um farol para o desenvolvimento de pesquisas de forma aberta e responsável. Estamos comprometidos com a ciência aberta e em compartilhar nosso trabalho, seja em artigos de pesquisa, códigos, modelos, demonstrações e guias de uso responsável.

Nos últimos dez anos, fizemos avanços impressionantes na detecção de objetos com o Segment Anything, modelo que reconhece objetos em imagens. Além disso, fomos um dos pioneiros em técnicas de tradução automática não supervisionada, o que nos permitiu construir um modelo que pode traduzir 100 idiomas sem depender do inglês. Isso levou ao inovador No Language Left Behind, que recentemente expandiu a tecnologia de conversão de texto em fala e de fala em texto para mais de 1.000 idiomas.

No início deste ano, lançamos o Llama, um modelo de linguagem aberto e pré-treinado, seguido pelo Llama 2, que é gratuito para pesquisa e uso comercial. E, no Meta Connect 2023, revelamos novos produtos e experiências de IA que agora estão nas mãos de milhões de pessoas – o ápice do trabalho de pesquisa inicial que as equipes de IA generativa e de produtos da Meta desenvolveram.

Hoje, estamos compartilhando nossos últimos avanços no Ego-Exo4D, Audiobox e Seamless Communication.

Proporcionando aos modelos de IA visões egocêntricas e exocêntrica

Em nossos esforços para ensinar a IA a perceber o mundo por meio de nossos olhos, fizemos atualizações no Ego-Exo. O Ego-Exo4D mais recente captura simultânea de visões em primeira pessoa (egocêntricas) de uma câmera vestível, bem como visões externas (exocêntricas) de câmeras ao redor da pessoa. Juntas, essas perspectivas dão aos modelos de IA uma janela para o que as pessoas veem e ouvem, combinadas com mais contexto sobre o ambiente.

No futuro, esses avanços em IA permitirão que uma pessoa que use óculos inteligentes aprenda rapidamente novas habilidades com um treinador virtual de IA, que a guiará por um vídeo com instruções. Por exemplo, imagine assistir a um especialista consertando um pneu de bicicleta, fazendo malabarismo com uma bola de futebol ou dobrando um origami de cisne e, em seguida, ser capaz de mapear os passos dele para suas próprias ações.

Geração de vozes e efeitos sonoros com o Audiobox

No início deste ano, apresentamos o Voicebox, um modelo de IA generativa que pode ajudar na edição, amostragem e estilização de áudio. Agora, o Audiobox, seu sucessor, aprimora ainda mais a IA generativa para áudio. Com o Audiobox, você pode usar prompts de voz ou descrições de texto para descrever sons ou tipos de fala que gostaria de gerar. Por exemplo, você pode criar uma trilha sonora com um prompt como “um rio correndo e pássaros cantando”. Você pode até mesmo gerar uma voz dizendo: “uma jovem fala em tom alto e ritmo acelerado”. O Audiobox facilita a criação de áudio personalizado para todos os seus projetos.

https://about.fb.com/br/wp-content/uploads/sites/11/2023/11/03_Audiobox_Text-to-Audio.mp4?_=2

Desbloqueio do tradutor de idiomas Seamless

Com base em nosso trabalho com o SeamlessM4T, agora estamos apresentando o Seamless Communication, um conjunto de modelos de tradução de IA que preserva melhor a expressão em diversos idiomas e, para melhorar a velocidade, traduz enquanto a pessoa ainda está falando.

As versões anteriores dos serviços de tradução de idiomas geralmente apresentam dificuldades para captar o tom de voz, as pausas e a ênfase, perdendo sinais importantes que nos ajudam a compartilhar emoções e intenções. O SeamlessExpressive é o primeiro sistema disponível publicamente que permite a comunicação expressiva entre idiomas. Ele utiliza um modelo que preserva a emoção e o estilo do falante, bem como aborda a velocidade e o ritmo da fala. Atualmente, o modelo funciona para inglês, espanhol, alemão, francês, italiano e chinês.

O SeamlessStreaming permite conversas em tempo real com alguém que fala um idioma diferente. Em contraste com os sistemas convencionais que traduzem quando o falante termina a frase, o SeamlessStreaming traduz enquanto o falante ainda está falando, permitindo que a pessoa que está ouvindo ouça a tradução mais rapidamente.

https://about.fb.com/br/wp-content/uploads/sites/11/2023/11/Seamless-Overview.mp4?_=3

A Meta está posicionada de forma única para resolver os maiores desafios da IA. Nossos investimentos em software, hardware e infraestrutura nos permitem transformar os aprendizados de nossas pesquisas em produtos, que podem beneficiar bilhões de pessoas.

A FAIR é uma peça fundamental para o sucesso da Meta e um dos únicos grupos do mundo com todos os requisitos para proporcionar verdadeiras inovações: algumas das mentes mais brilhantes do setor, uma cultura de pesquisas abertas e o mais importante: a liberdade de realizar pesquisas exploratórias. Essa liberdade nos ajudou a permanecer ágeis e a contribuir para a construção do futuro da conexão social.

Pesquisa responsável de IA

Valorizamos a pesquisa de IA responsável e a abertura, pois o compartilhamento de um trabalho cuidadoso por meio de análises de colaboradores nos leva à excelência e gera confiança em nossos avanços. Isso também nos permite colaborar com a comunidade em geral, o que traz um progresso mais rápido e um conjunto mais diversificado de colaboradores. Saiba mais sobre como estamos conduzindo a pesquisa de IA de forma responsável.