Há mais de uma década a equipe de Fundamental AI Research (FAIR) da Meta tem se concentrado no avanço da IA por meio de pesquisa aberta. Como a inovação no campo continua evoluindo em um ritmo acelerado, acreditamos que a colaboração com a comunidade global de IA é mais importante do que nunca. Manter uma abordagem de ciência aberta e compartilhar nosso trabalho com a comunidade nos ajuda a permanecer fiéis ao nosso objetivo de criar sistemas de IA que funcionem bem para todos e que aproximem o mundo.
Hoje, estamos animados em compartilhar alguns dos modelos de pesquisa da FAIR mais recentes com a comunidade global. Estamos lançando publicamente seis módulos de pesquisa que se concentram em temas fundamentais do nosso trabalho: inovação, criatividade, eficiência e responsabilidade. Esses lançamentos incluem modelos de geração de imagem para texto e de texto para música, um modelo de previsão de múltiplos tokens e uma técnica para detectar fala gerada por IA. Ao compartilhar publicamente nosso trabalho de pesquisa inicial, esperamos inspirar iterações e, por fim, ajudar a promover a IA de forma responsável. Estamos ansiosos para ver o que a comunidade desenvolverá com essas versões mais recentes e seguir com as conversas importantes que estamos tendo com a comunidade de código aberto.
Meta Chameleon
Conforme compartilhamos em nosso artigo de pesquisa no mês passado, o Meta Chameleon é uma família de modelos que pode combinar texto e imagens na entrada e na saída de qualquer combinação de texto, bem como imagens com uma única arquitetura unificada para codificação e decodificação. Enquanto a maioria dos modelos de fusão tardia atuais utilizam aprendizado baseado em difusão, o Meta Chameleon usa tokenização para texto e imagens. Isso permite uma abordagem mais unificada e torna o modelo mais fácil de projetar, manter e dimensionar. As possibilidades são infinitas – imagine a geração de legendas criativas para imagens ou o uso de uma combinação de prompts de texto e imagens para criar uma cena totalmente nova.
Hoje, estamos lançando publicamente os principais componentes dos nossos modelos Chameleon 7B e 34B sob uma licença exclusiva para pesquisa. Os modelos que estamos disponibilizando foram ajustados com segurança e são compatíveis com entradas de modalidades mistas e saída somente de texto para serem usados para fins de pesquisa. Embora tenhamos tomado medidas para desenvolver esses modelos de forma responsável, reconhecemos que ainda existem riscos, portanto, não estamos liberando o modelo de geração de imagens do Chameleon no momento. Com os modelos existentes que estamos compartilhando hoje, esperamos incentivar a comunidade de pesquisa a criar novas estratégias de detecção e mitigação que ajudarão a dimensionar a pesquisa de modelos generativos de forma responsável.
Previsão de múltiplos tokens
A maioria dos LLMs (grandes modelos de linguagem) modernos apresentam um objetivo de treinamento simples: prever a próxima palavra. Embora essa abordagem seja simples e escalonável, ela também é ineficiente, pois requer muitas ordens de magnitude a mais de texto do que as crianças precisam para aprender o mesmo grau de fluência no idioma.
Em abril, propusemos uma nova abordagem para criar LLMs melhores e mais rápidos usando a previsão de múltiplos tokens. Com essa abordagem, treinamos modelos de linguagem para prever diversas palavras futuras de uma só vez, ao invés da antiga abordagem de uma por vez. Isso melhora os recursos do modelo e a eficiência do treinamento, além de permitir velocidades mais rápidas. No contexto da ciência aberta responsável, estamos liberando os modelos pré-treinados para o preenchimento de código sob uma licença não comercial/apenas para pesquisa. Esperamos que essa medida permita que a comunidade de pesquisa investigue nosso método e os comportamentos dos modelos treinados de forma independente.
Condicionamento Conjunto Simbólico e de Áudio para Geração de Texto para Música com Controle Temporal
A IA generativa permitiu que as pessoas explorassem sua criatividade de novas maneiras, como, por exemplo, transformando um prompt de texto em um trecho de música. Embora os modelos existentes de texto para música, como o MusicGen, dependam principalmente de entradas de texto para a geração de música, nosso novo modelo, o Condicionamento Conjunto Simbólico e de Áudio para Geração de Texto para Música com Controle Temporal (JASCO na sigla em inglês), é capaz de aceitar variadas entradas de condicionamento, como acordes ou batidas específicas, para melhorar o controle sobre os resultados musicais gerados. Especificamente, aplicamos camadas de gargalo de informação em conjunto com desfoque temporal para extrair informações relevantes em relação a controles específicos. Isso permite a incorporação de condições baseadas tanto em símbolos quanto em áudio no mesmo modelo de geração de texto para música.
Os resultados sugerem que o JASCO é equivalente aos modelos de base avaliados em termos de qualidade de geração, enquanto permite controles significativamente melhores e mais versáteis sobre a música gerada. Hoje, estamos lançando o artigo de pesquisa junto com uma página de amostras. Ainda este mês, vamos lançar o código de inferência como parte do repositório AudioCraft sob a licença MIT e o modelo pré-treinado sob a licença CC-BY-NC. Estamos ansiosos para disponibilizar o código e os modelos no futuro.
Ouça amostras de nosso trabalho
AudioSeal
Ferramentas de IA generativa estão inspirando as pessoas a compartilhar suas criações com amigos, familiares e seguidores nas redes sociais. Como em todas as inovações em IA, é importante que façamos nossa parte para garantir o uso responsável dessas ferramentas. Hoje, estamos lançando o AudioSeal, que acreditamos ser a primeira técnica de marca d’água de áudio projetada especificamente para a detecção localizada de fala gerada por IA, possibilitando identificar segmentos gerados por IA dentro de um trecho de áudio mais longo. O AudioSeal renova a marca d’água de áudio clássica ao focar na detecção de conteúdo gerado por IA em vez de esteganografia. Diferente dos métodos tradicionais que dependem de algoritmos de decodificação complexos, a abordagem de detecção localizada do AudioSeal permite uma detecção mais rápida e eficiente. Esse design aumenta a velocidade de detecção em até 485 vezes em comparação com os métodos anteriores, tornando-o altamente adequado para aplicações em grande escala e em tempo real. Nossa abordagem atinge desempenho de ponta em marca d’água de áudio em termos de robustez e imperceptibilidade.
O AudioSeal está sendo lançado sob uma licença comercial. É apenas uma das várias iniciativas de pesquisa responsável que compartilhamos para ajudar a prevenir o uso indevido de ferramentas de IA generativa. Incluímos marcas d’água semelhantes em amostras de fala geradas pelo SeamlessM4T v2, nosso modelo fundamental de tradução para texto e fala, e pelo Audiobox. Detalhamos ainda mais nossa abordagem de marcação d’água para modelos de imagens, fala e texto em lançamentos recentes.
Obtenha o modelo e o código de treinamento
Parceria para apoiar o lançamento do conjunto de dados PRISM
Obter feedback de um grupo diversificado de pessoas é importante para melhorar os LLMs, no entanto, questões abertas têm surgido na comunidade de pesquisa sobre métodos, domínios e objetivos em torno do processo de feedback. Trabalhamos com nossos parceiros externos para lidar com essas questões, apoiando o lançamento do conjunto de dados PRISM, que mapeia as características sociodemográficas e as preferências declaradas de 1.500 participantes diversos de 75 países. O conjunto de dados mapeia as preferências de cada pessoa e o feedback detalhado para 8.011 conversas ao vivo com 21 LLMs diferentes.
A Meta prestou consultoria sobre a compilação do conjunto de dados PRISM de nossos parceiros externos, concentrando as conversas que centralizam perspectivas subjetivas e multiculturais em tópicos em que é provável que haja discordância interpessoal e transcultural. Nosso artigo demonstra a utilidade do PRISM por meio de três estudos de caso de diversidade de diálogos, diversidade de preferências e resultados de bem-estar, mostrando que é importante que os seres humanos definem normas de alinhamento. Embora esperemos que este documento sirva como um recurso da comunidade, também queremos que ele inspire uma participação mais ampla no desenvolvimento de IA e promova uma abordagem mais inclusiva para o design de tecnologia.
Obtenha o conjunto de dados dos parceiros externos
Mensuração e aprimoramento de disparidades geográficas em sistemas de geração de texto para imagem
É importante que os modelos de texto para imagem funcionem bem para todos e reflitam a diversidade geográfica e cultural do mundo. Para aprimorar esses modelos, são necessárias novas ferramentas que possibilitem aos pesquisadores compreender melhor onde os modelos existentes podem ser insuficientes. Para atingir esse objetivo, estamos detalhando nossos esforços e progressos recentes em pesquisa:
- Desenvolvemos indicadores automáticos chamados “DIG In” para avaliar possíveis disparidades geográficas em modelos de texto para imagem. Além disso, para entender como as pessoas em diferentes regiões variam em suas percepções de representação geográfica, realizamos um estudo de anotações em grande escala. Coletamos mais de 65.000 anotações e mais de 20 respostas de pesquisa abrangendo apelo, similaridade, consistência e recomendações compartilhadas para melhorar as avaliações automáticas e humanas dos modelos de texto para imagem.
- Com esse trabalho, aprendemos que as pessoas utilizam componentes específicos em uma imagem ao perceber a representação geográfica, em vez de visualizar a imagem inteira de forma holística. Como parte de nossa abordagem colaborativa na FAIR, orientamos uma equipe de alunos de pós-graduação da UMass Amherst em uma avaliação de acompanhamento que decompõe os indicadores automáticos introduzidos anteriormente em conceitos em primeiro plano e representações em segundo plano.
- Informado pelo trabalho de mensuração do DIG In, também exploramos métodos para melhorar a diversidade de resultados dos modelos de texto para imagem. Nesse sentido, apresentamos a orientação contextualizada da Pontuação Vendi, que amplia nosso trabalho anterior de orientação de feedback e usa uma intervenção em tempo de inferência que orienta os modelos de difusão latente de texto para imagem de última geração para aumentar a diversidade de representação das amostras geradas, mantendo ou melhorando a qualidade da imagem e a consistência da geração imediata.
Obtenha o código de avaliação dos indicadores automáticos DIG In para avaliar as disparidades geográficas
Obtenha nossas anotações que abrangem apelo, similaridade e consistência