Apresentando o Purple Llama para o desenvolvimento seguro e responsável de IA

Destaques

Estamos apresentando o Purple Llama, um projeto abrangente que apresenta ferramentas e avaliações abertas de confiança e segurança para ajudar os desenvolvedores a criar modelos de IA com responsabilidade.
De início, o Purple Llama incluirá ferramentas e avaliações para segurança cibernética e proteções de entrada/saída.

Com mais de 100 milhões de downloads de modelos Llama até o momento, grande parte dessa inovação está sendo alimentada por modelos abertos. Para gerar confiança nos desenvolvedores que estão impulsionando essa nova onda de inovação, estamos lançando o Purple Llama, um projeto abrangente que reunirá ferramentas e avaliações para ajudar os desenvolvedores a criar com responsabilidade modelos abertos de IA generativa.

Por que roxo? Utilizando um conceito do mundo da segurança cibernética, acreditamos que, para realmente atenuar os desafios que a IA generativa apresenta, precisamos adotar posturas de ataque (equipe vermelha) e de defesa (equipe azul). A equipe roxa, composta pelas responsabilidades das equipes vermelha e azul, é uma abordagem colaborativa para avaliar e amenizar os possíveis riscos.

De início, o Purple Llama incluirá ferramentas e avaliações para segurança cibernética e proteções de entrada/saída, com mais recursos a serem lançados em um futuro próximo. Os componentes do projeto Purple Llama serão licenciados de forma permissiva, permitindo tanto a pesquisa quanto o uso comercial. Acreditamos que essa é uma etapa importante para possibilitar a colaboração entre desenvolvedores e padronizar ferramentas de confiança e segurança para IA generativa.

Segurança cibernética

Estamos compartilhando o que acreditamos ser o primeiro conjunto de avaliações de segurança cibernética em todo o setor para grandes modelos de linguagem (LLMs). Esses benchmarks são baseados em orientações e padrões do setor e foram criados em colaboração com nossos especialistas em segurança. Com esta versão inicial, pretendemos fornecer ferramentas que ajudarão a lidar com os riscos descritos nos compromissos da Casa Branca, incluindo:

Métricas para quantificar o risco de segurança cibernética do LLM;
Ferramentas para avaliar a frequência de sugestões de códigos inseguros;
Ferramentas para avaliar os LLMs para dificultar a geração de códigos maliciosos ou ajudar na realização de ataques cibernéticos.

Acreditamos que essas ferramentas reduzirão a frequência de códigos inseguros gerados por IA sugeridos por LLMs e reduzirão a utilidade dos LLMs para os adversários cibernéticos.

Proteções de entrada/saída

Conforme descrito no Guia de Uso Responsável do Llama 2, recomendamos que todas as entradas e saídas do LLM sejam verificadas e filtradas de acordo com as diretrizes de conteúdo adequadas à aplicação.

Como apoio para este processo, estamos lançando o Llama Guard, um modelo básico disponível abertamente para ajudar os desenvolvedores a evitar a geração de resultados potencialmente arriscados. Como parte de nosso compromisso contínuo com a ciência aberta e transparente, estamos divulgando nossa metodologia e uma discussão ampliada de nossos resultados em nosso artigo. Esse modelo foi treinado em uma combinação de conjuntos de dados disponíveis publicamente para permitir a identificação de tipos comuns de conteúdo potencialmente arriscado ou violador. Em suma, nossa visão é permitir que os desenvolvedores personalizem versões futuras para dar suporte a casos de uso relevantes com base em seus próprios requisitos, bem como facilitar a adoção de práticas recomendadas e melhorar o ecossistema aberto.

Um ecossistema aberto

Adotar uma abordagem aberta para a IA não é novidade para a Meta. A pesquisa exploratória, a ciência aberta e a colaboração mútua são fundamentais para nossos esforços de IA e acreditamos que há uma importante oportunidade de criar um ecossistema aberto. Essa mentalidade colaborativa estava na vanguarda quando o Llama 2 foi lançado em julho com mais de 100 parceiros, e estamos empolgados em compartilhar que muitos desses mesmos parceiros estão trabalhando conosco em confiança e segurança abertas, incluindo: AI Alliance, AMD, Anyscale, AWS, Bain, CloudFlare, Databricks, Dell Technologies, Dropbox, Google Cloud, Hugging Face, IBM, Intel, Microsoft, MLCommons, Nvidia, Oracle, Orange, Scale AI, Together.AI e muitos outros que estão por vir.

Estamos entusiasmados em colaborar com nossos parceiros e outros que compartilham a mesma visão de um ecossistema aberto de IA generativa desenvolvida de forma responsável.

Destaques

Notícias relacionadas