Meta

Apresentando o Llama 3.1: nossos modelos mais capazes até o momento

Destaques

  • A Meta está comprometida com a IA abertamente acessível. Leia a carta de Mark Zuckerberg detalhando por que o código aberto é bom para os desenvolvedores, bom para o Meta e bom para o mundo.
  • Ao trazer inteligência aberta para todos, nossos modelos mais recentes expandem o comprimento de contexto para 128K, adicionam suporte em oito idiomas e incluem o Llama 3.1 405B – o primeiro modelo de IA de código aberto de última geração.
  • O Llama 3.1 405B está em uma classe própria, com flexibilidade, controle e recursos de última geração incomparáveis ​​que rivalizam com os melhores modelos de código fechado. Nosso novo modelo permitirá que a comunidade habilite novos fluxos de trabalho, como geração de dados sintéticos e destilação de modelos.
  • Continuamos a desenvolver o Llama para ser um sistema, fornecendo mais componentes que funcionam com o modelo, incluindo um sistema de referência. Queremos capacitar os desenvolvedores com ferramentas para criar seus próprios agentes personalizados e novos tipos de comportamentos de agente. Estamos reforçando isso com novas ferramentas de segurança, incluindo Llama Guard 3 e Prompt Guard, para ajudar a construir com responsabilidade. Também estamos lançando uma solicitação de comentários sobre a API do Llama Stack, uma interface padrão que esperamos que facilite o aproveitamento dos modelos Llama por projetos de terceiro. 
  • O ecossistema está preparado e pronto para funcionar com mais de 25 parceiros, incluindo AWS, NVIDIA, Databricks, Groq, Dell, Azure e Google Cloud, oferecendo serviços desde o primeiro dia.
  • Experimente o Llama 3.1 405B nos EUA no WhatsApp e em meta.ai fazendo uma pergunta desafiadora de matemática ou codificação.

Até hoje, os grandes modelos de linguagem de código aberto ficavam atrás de seus equivalentes fechados quando se trata de recursos e desempenho. Agora, estamos inaugurando uma nova era com o código aberto liderando o caminho. Estamos lançando publicamente o Llama 3.1 405B, que acreditamos ser o maior e mais capaz modelo de base disponível abertamente no mundo. Com mais de 300 milhões de downloads totais de todas as versões do Llama até o momento, estamos apenas começando.

Apresentando o Llama 3.1

O Llama 3.1 405B é o primeiro modelo disponível abertamente que rivaliza com os principais modelos de IA quando se trata de recursos de última geração em conhecimento geral, capacidade de direção, matemática, uso de ferramentas e tradução multilíngue. Com o lançamento do modelo 405B, estamos preparados para impulsionar a inovação – com oportunidades sem precedentes de crescimento e exploração. Acreditamos que a última geração do Llama irá desencadear novas aplicações e paradigmas de modelagem, incluindo a geração de dados sintéticos para permitir a melhoria e o treinamento de modelos menores, bem como a destilação de modelos – uma capacidade que nunca foi alcançada nesta escala em código aberto.

Como parte deste último lançamento, apresentamos versões atualizadas dos modelos 8B e 70B. Eles são multilíngues e têm um comprimento de contexto significativamente maior, de 128K, uso de ferramentas de última geração e recursos de raciocínio mais fortes em geral. Isso permite que nossos modelos mais recentes ofereçam suporte a casos de uso avançados, como resumo de textos longos, agentes de conversação multilíngues e assistentes de codificação. Também fizemos alterações em nossa licença, permitindo que os desenvolvedores usem os resultados dos modelos Llama – incluindo o 405B – para melhorar outros modelos. Fiéis ao nosso compromisso com o código aberto, a partir de hoje estamos disponibilizando esses modelos para a comunidade para download em llama.meta.com e Hugging Face, além de estarem disponíveis para desenvolvimento imediato em nosso amplo ecossistema de plataformas parceiras.

Avaliações do modelo 

Para esta versão, avaliamos o desempenho em mais de 150 conjuntos de dados de referência que abrangem uma ampla variedade de idiomas. Além disso, realizamos extensas avaliações humanas que comparam o Llama 3.1 com modelos concorrentes em cenários do mundo real. Nossa avaliação experimental sugere que nosso modelo principal é competitivo com os principais modelos de base em uma série de tarefas, incluindo GPT-4, GPT-4o e Claude 3.5 Sonnet. Além disso, nossos modelos menores são competitivos com modelos fechados e abertos que possuem um número semelhante de parâmetros.

Arquitetura do modelo

Como nosso maior modelo até agora, treinar o Llama 3.1 405B em mais de 15 trilhões de tokens foi um grande desafio. Para permitir execuções de treinamento nesta escala e alcançar os resultados que temos em um período de tempo razoável, otimizamos significativamente toda a nossa estrutura de treinamento e aumentamos o treinamento do nosso modelo para mais de 16 mil GPUs H100, tornando o 405B o primeiro modelo Llama treinado nesta escala.

Para resolver isso, fizemos escolhas de design que se concentram em manter o processo de desenvolvimento do modelo escalável e direto. 

Em comparação com as versões anteriores do Llama, melhoramos a quantidade e a qualidade dos dados que usamos no pré e pós-treinamento. Essas melhorias incluem o desenvolvimento de pipelines de pré-processamento e curadoria mais cuidadosos para dados de pré-treinamento, o desenvolvimento de garantia de qualidade mais rigorosa e abordagens de filtragem para dados pós-treinamento.

Conforme esperado pelas leis de escala para modelos de linguagem, nosso novo modelo principal supera modelos menores treinados usando o mesmo procedimento. Também usamos o modelo de parâmetro 405B para melhorar a qualidade pós-treinamento de nossos modelos menores.

Para apoiar a inferência de produção em larga escala para um modelo na escala do 405B, quantizamos nossos modelos de 16 bits (BF16) a 8 bits (FP8), reduzindo efetivamente os requisitos de computação necessários e permitindo que o modelo seja executado dentro um único nó de servidor.

Ajuste de instruções e bate-papo 

Com o Llama 3.1 405B, nos esforçamos para melhorar a utilidade, a qualidade e a capacidade de seguir instruções detalhadas do modelo em resposta às instruções do usuário, garantindo ao mesmo tempo altos níveis de segurança. Nossos maiores desafios foram oferecer suporte a mais recursos, à janela de contexto de 128K e ao aumento do tamanho dos modelos.

No pós-treinamento, produzimos modelos finais de chat fazendo várias rodadas de alinhamento sobre o modelo pré-treinado. Cada rodada envolve ajuste fino supervisionado (SFT na sigla em inglês), amostragem de rejeição (RS na sigla em inglês) e otimização de preferência direta (DPO na sigla em inglês). Usamos a geração de dados sintéticos para produzir a grande maioria de nossos exemplos de SFT, iterando diversas vezes para produzir dados sintéticos de qualidade cada vez maior em todos os recursos. Além disso, investimos em múltiplas técnicas de processamento de dados para filtrar esses dados sintéticos com a mais alta qualidade. Isso nos permite dimensionar a quantidade de dados de ajuste fino entre recursos. 

Equilibramos cuidadosamente os dados para produzir um modelo com alta qualidade em todos os recursos. Por exemplo, mantemos a qualidade do nosso modelo em benchmarks de contexto curto, mesmo quando estendemos para o contexto de 128K. Da mesma forma, nosso modelo continua a fornecer respostas extremamente úteis, mesmo quando adicionamos mitigações de segurança.

O sistema Llama

Os modelos Llama sempre foram planejados para funcionar como parte de um sistema geral que pode orquestrar vários componentes, incluindo a chamada de ferramentas externas. Nossa visão é ir além dos modelos básicos para dar aos desenvolvedores acesso a um sistema mais amplo que lhes dê flexibilidade para projetar e criar ofertas personalizadas que se alinhem com sua visão. Esse pensamento começou no ano passado, quando introduzimos pela primeira vez a incorporação de componentes fora do LLM principal.

Como parte de nossos esforços contínuos para desenvolver IA de forma responsável além da camada do modelo e ajudar outros a fazer o mesmo, estamos lançando um sistema de referência completo que inclui vários aplicativos de amostra, além de novos componentes, como o Llama Guard 3, um modelo de segurança multilíngue e Prompt Guard, um filtro de injeção imediata. Esses aplicativos de amostra são de código aberto e podem ser desenvolvidos pela comunidade.   

A implementação dos componentes desta visão do Sistema Llama ainda é fragmentada. É por isso que começamos a trabalhar com a indústria, startups e a comunidade em geral para ajudar a definir melhor as interfaces desses componentes. Para apoiar isso, estamos lançando uma solicitação de comentário no GitHub para o que chamamos de “Llama Stack”. Llama Stack é um conjunto de interfaces padronizadas e opinativas sobre como construir componentes canônicos do conjunto de ferramentas (ajuste fino, geração de dados sintéticos) e aplicativos de agente. A nossa esperança é que estes sejam adotados em todo o ecossistema, o que deverá ajudar a facilitar a interoperabilidade. 

Agradecemos comentários e formas de melhorar a proposta. Estamos entusiasmados em expandir o ecossistema em torno do Llama e reduzir as barreiras para desenvolvedores e fornecedores de plataforma.

A abertura impulsiona a inovação

Ao contrário dos modelos fechados, o Llama está disponível para download. Os desenvolvedores podem personalizar totalmente os modelos de acordo com suas necessidades e aplicações, treinar em novos conjuntos de dados e realizar ajustes adicionais. Isso permite que a comunidade mais ampla de desenvolvedores e o mundo compreendam mais plenamente o poder da IA ​​generativa. Os desenvolvedores podem personalizar totalmente seus aplicativos e executá-los em qualquer ambiente, inclusive on-premise, na nuvem ou até mesmo localmente em um laptop – tudo isso sem compartilhar dados com a Meta. 

Embora muitos possam argumentar que os modelos fechados são mais econômicos, os modelos Llama oferecem um dos custos por token mais baixos do setor, de acordo com testes da Artificial Analysis. E, como observou Mark Zuckerberg, o código aberto garantirá que mais pessoas em todo o mundo tenham acesso aos benefícios e oportunidades da IA, que o poder não esteja concentrado nas mãos de poucos e que a tecnologia possa ser implementada de forma mais uniforme e segura em toda a sociedade. É por isso que continuamos a tomar medidas ao longo do caminho para que a IA de acesso aberto se torne o padrão da indústria.

Vimos a comunidade construir coisas incríveis com modelos anteriores do Llama, incluindo um companheiro de estudo de IA criado com o Llama e implementado no WhatsApp e no Messenger, um LLM adaptado à área médica projetado para ajudar na tomada de decisões clínicas, e uma organização sem fins lucrativos de saúde no Brasil que disponibiliza ao sistema de saúde a organização e comunicação de informações dos pacientes sobre sua internação, tudo com segurança de dados. Mal podemos esperar para ver o que a comunidade construirá com nossos modelos mais recentes, graças ao poder do código aberto.

Construindo com Llama 3.1 405B

Para o desenvolvedor médio, usar um modelo na escala do 405B é um desafio. Embora seja um modelo incrivelmente poderoso, reconhecemos que requer recursos computacionais e experiência significativos para trabalhar. Conversamos com a comunidade e percebemos que há muito mais no desenvolvimento de IA generativa do que apenas modelos de estímulo. Queremos permitir que todos aproveitem ao máximo o 405B, incluindo:

É aqui que o ecossistema Llama pode ajudar. A partir do primeiro dia, os desenvolvedores já podem aproveitar todos os recursos avançados do modelo 405B e começar a construir imediatamente. Os desenvolvedores também podem explorar fluxos de trabalho avançados, como geração de dados sintéticos fáceis de usar, seguir instruções prontas para destilação de modelos e habilitar RAG contínuo com soluções de parceiros, incluindo AWS, NVIDIA e Databricks. Além disso, a Groq otimizou a inferência de baixa latência para implementações em nuvem, com a Dell alcançando otimizações semelhantes para sistemas locais.

Trabalhamos com projetos comunitários importantes, como vLLM, TensorRT e PyTorch, para dar suporte desde o primeiro dia e garantir que a comunidade esteja pronta para a implementação em produção. 

Esperamos que o nosso lançamento do 405B também estimule a inovação em toda a comunidade para facilitar a inferência e o ajuste fino de modelos desta escala, além de permitir a próxima onda de pesquisa em destilação de modelos.

Experimente hoje mesmo a coleção de modelos Llama 3.1

Mal podemos esperar para ver o que a comunidade fará com este trabalho. Há muito potencial para construir novas experiências úteis usando o multilinguismo e o aumento da extensão do contexto. Com o Llama Stack e as novas ferramentas de segurança, esperamos continuar a construir junto com a comunidade de código aberto de forma responsável. Antes de lançar um modelo, trabalhamos para identificar, avaliar e mitigar riscos potenciais por meio de diversas medidas, incluindo exercícios de descoberta de riscos pré-implementação por meio de red teaming e ajustes de segurança. Por exemplo, conduzimos um extenso red teaming com especialistas externos e internos para testar a resistência dos modelos e encontrar maneiras inesperadas de usá-los. (Leia mais sobre como estamos dimensionando nossa coleção de modelos Llama 3.1 de forma responsável neste blog)

Embora este seja o nosso maior modelo até agora, acreditamos que ainda há muito terreno novo para explorar no futuro, incluindo tamanhos mais amigáveis ​​aos dispositivos, modalidades adicionais e mais investimento na camada da plataforma do agente. Como sempre, estamos ansiosos para ver todos os produtos e experiências incríveis que a comunidade construirá com esses modelos. 

Este trabalho foi apoiado pelos nossos parceiros da comunidade de IA. Gostaríamos de agradecer e reconhecer (em ordem alfabética): Accenture, Amazon Web Services, AMD, Anyscale, CloudFlare, Databricks, Dell, Deloitte, Fireworks.ai, Google Cloud, Groq, Hugging Face, IBM WatsonX, Infosys, Intel , Kaggle, Microsoft Azure, NVIDIA DGX Cloud, OctoAI, Oracle Cloud, PwC, Replicate, Sarvam AI, Scale.AI, SNCF, Snowflake, Together AI e UC Berkeley – vLLM Project.

 

Experimente o Llama 3.1

Leia o artigo sobre o Llama 3.1

Visite o repositório do Llama no GitHub

Faça o download do Llama 3.1 no Hugging Face