메타의 현존 가장 강력한 AI 모델, Llama 3.1을 소개합니다

*영어 원문 보기

주요 내용

Meta는 오픈 소스 AI를 위해 최선을 다하고 있습니다. 오픈 소스가 개발자, Meta, 그리고 우리 모두에게 왜 좋은지를 설명하는 Mark Zuckerberg의 서한을 확인해 보세요.
모두에게 오픈 인텔리전스를 제공하는 Meta의 최신 모델에는 컨텍스트 길이가 12만8000개(128K) 토큰으로 확장되고 8개 언어 지원이 추가되었으며, 최초의 프론티어급 오픈 소스 AI 모델인 Llama 3.1 405B가 포함되어 있습니다.
Llama 3.1 405B는 최고 성능의 폐쇄형 모델에 필적하는 탁월한 유연성과 통제권 및 최첨단 기능을 갖춘 동급 최강의 모델입니다. 새로운 모델을 통해 커뮤니티는 합성 데이터 생성과 모델 경량화와 같은 새로운 워크플로우를 수행할 수 있습니다.
Meta는 Llama를 하나의 완전한 시스템으로 계속해서 발전시키기 위해 참조 시스템 등 더 많은 구성 요소를 제공해 나가고 있습니다. 개발자가 자신만의 맞춤형 에이전트와 새로운 유형의 에이전트 동작을 만들 수 있도록 돕는 도구들을 제공하고자 합니다. 책임감 있는 개발을 지원하기 위해 Llama Guard 3와 Prompt Guard 등 새로운 보안 및 안전 도구도 제공하며 시스템을 강화하고 있습니다. 또한, 써드파티 프로젝트가 Llama 모델을 더 쉽게 활용하도록 돕는 표준 인터페이스 Llama Stack API에 대한 공개적인 피드백도 받고 있습니다.
생태계는 준비돼 있으며 출시 첫 날부터 AWS, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud, Snowflake 등 25개 이상의 파트너가 서비스를 제공합니다.
미국에서는 WhatsApp과 meta.ai에서 Llama 3.1 405B 모델로 어려운 수학 문제나 코딩 문제를 풀어볼 수 있습니다.

지금까지 오픈 소스 대규모 언어 모델은 기능이나 성능 면에서 대부분 폐쇄형 언어 모델에 비해 뒤쳐져 있었습니다. 이제 Meta는 오픈 소스 모델이 이끄는 새로운 시대를 열고자 합니다. Meta는 세계 최대 규모이자 가장 뛰어난 성능의 오픈 소스 파운데이션 모델인 Llama 3.1 405B를 공개 출시합니다. 현재까지 Llama의 다양한 버전 모델들은 총 3억 건 이상 다운로드됐으며, 이는 이제 시작에 불과합니다.

Llama 3.1 소개

Llama 3.1 405B는 일반 지식 처리, 통제 가능성, 수학, 도구 사용, 다국어 번역에 있어 최상급 AI 모델에 필적하는 뛰어난 역량을 갖춘 최초의 오픈 소스 모델입니다. 405B 모델의 출시로 Meta는 혁신을 가속화할 준비가 되었으며, 성장과 탐험에 있어 전례 없는 기회를 맞이하게 될 것입니다. 우리는 이 최신 버전이 새로운 응용 프로그램과 모델링 패러다임을 촉발할 것이라 믿습니다. 여기엔 소규모 모델의 개선과 학습을 가능하게 하는 합성 데이터 생성뿐만 아니라, 이 정도 규모의 오픈 소스 모델에서 구현된 적 없던 모델 경량화 등이 포함됩니다.

이번 출시에는 8B와 70B 모델의 업그레이드 버전도 포함됩니다. 이 두 모델은 다국어를 지원하며, 12만8000개(128K)로 훨씬 길어진 컨텍스트 길이, 최첨단 도구 사용과 전반적으로 향상된 강력한 추론 능력을 갖추고 있습니다. 이를 통해 최신 모델은 장문의 텍스트 요약, 다국어 대화 에이전트, 코딩 어시스턴트와 같은 고차원 사용 사례를 개발하는 데 기여할 수 있습니다. 또한 405B를 포함한 다양한 규모의 Llama 모델의 출력물을 다른 모델을 개선하는데 쓸 수 라이선스를 변경했습니다. 오픈 소스를 향한 Meta의 비전에 따라, 이 모델들을 llama.meta.com과 Hugging Face에서 다운로드할 수 있도록 하고, 파트너 플랫폼의 광범위한 생태계에서 즉시 개발에 사용할 수 있도록 했습니다.

모델 평가

이번 출시를 위해 Meta는 다양한 언어를 포함한 150개 이상의 벤치마크 데이터 셋에서 성능을 평가했습니다. 또한 실제 시나리오에서 Llama 3.1과 경쟁 모델들을 비교하는 강화된 인적 평가(human evaluation)도 실시했습니다. 실험 결과, 우리의 플래그쉽 모델은 다양한 작업에서 GPT-4, GPT-4o, Claude 3.5 Sonnet 등 주요 파운데이션 모델들과 견줘 볼 때 경쟁력 있는 성능을 보여주었습니다. 또한, 우리의 소규모 모델들도 유사한 수의 파라미터를 가진 다른 폐쇄형 및 개방형 모델과 비교해 경쟁력을 갖추고 있었습니다.

모델 아키텍처

역대 최대 규모의 모델인 Llama 3.1 405B를 15조 개가 넘는 토큰으로 훈련시키는 것은 큰 도전이었습니다. 이러한 규모로 학습을 진행하고 합리적인 시간 내에 결과를 달성하기 위해, 전체 훈련 스택을 대폭 최적화하고 모델 학습을 16,000개 이상의 H100 GPU로 확장했습니다. 이를 통해 405B는 이 규모로 학습된 최초의 Llama 모델이 되었습니다.

이를 위해, Meta는 모델 개발 과정을 확장 가능하고 단순하게 유지하는 데 중점을 두고 설계를 진행했습니다.

훈련 안정성을 최대화하기 위해 하이브리드 전문가 모델 대신 소폭의 조정이 적용된 표준 디코더 전용 트랜스포머 모델 아키텍처를 선택했습니다.
각 라운드마다 지도 학습 미세 조정(SFT; Supervised Fine-Tuning)과 직접 선호 최적화(DPO; Direct Preferred Optimization)를 사용하는 반복적인 사후 훈련 절차를 채택했습니다. 이를 통해 각 라운드에서 최고 품질의 합성 데이터를 생성하고 모든 기능의 성능을 향상시킬 수 있었습니다.

이전 버전의 Llama와 비교했을 때, 사전 및 사후 훈련에 사용하는 데이터의 양과 질이 모두 개선되었습니다. 이러한 개선 사항에는 사전 학습 데이터에 대한 보다 신중한 전처리 및 큐레이션 파이프라인 개발, 사후 학습 데이터에 대한 더욱 엄격한 품질 보증 개발 및 필터링 접근 방식이 포함됩니다.

언어 모델의 스케일링 법칙에 따라, 우리의 새 플래그십 모델은 예상했던 대로 동일한 절차로 훈련된 소규모 모델들을 능가합니다. 또한 405B 파라미터 모델을 사용해 소규모 모델의 사후 학습 품질도 개선했습니다.

405B 모델의 대규모 추론 출력을 지원하기 위해 모델을 16비트(BF16)에서 8비트(FP8) 숫자로 양자화하여 필요한 계산 요구 사항을 효과적으로 낮추고 단일 서버 노드 내에서 모델을 실행할 수 있도록 했습니다.

명령 및 채팅 미세 조정

Llama 3.1 405B에서는 높은 수준의 안전성을 보장하면서도 사용자 지시에 대한 모델의 유용성, 품질, 자세한 지침 준수 능력을 향상시키기 위해 노력했습니다. 가장 큰 도전 과제는 더 많은 기능 지원, 128K 컨텍스트 창, 증가된 모델 크기였습니다.

사후 학습 단계에서는 사전 학습된 모델을 바탕으로 여러 차례의 정렬을 수행하여 최종 대화 모델을 생성했습니다. 각 라운드에서는 지도 학습 미세 조정(SFT), 거부 샘플링(RS), 직접 선호 최적화(DPO)를 실행합니다. 합성 데이터 생성을 사용해 대다수의 SFT 예제를 생성하고, 이를 여러 번 반복해 모든 기능에 걸쳐 점점 더 높은 품질의 합성 데이터를 생성합니다. 또한, 이러한 합성 데이터를 최고 품질로 필터링하기 위해 다양한 데이터 처리 기술에도 투자하고 있습니다. 이를 통해 여러 기능에 걸쳐 미세 조정 데이터의 양을 확장할 수 있습니다.

모든 기능에 걸쳐 높은 품질의 모델을 생성하기 위해 데이터의 균형을 신중하게 조정합니다. 예를 들어, 128K 컨텍스트로 확장할 때도 짧은 컨텍스트 벤치마크에서 모델의 품질을 유지합니다. 마찬가지로, 안전 완화 기능을 추가하면서도 Llama 모델은 여전히 최대한 유용한 답변을 제공합니다.

Llama 시스템

Llama 모델은 항상 외부 도구 호출을 포함한 여러 구성 요소를 조정할 수 있는 전체 AI 시스템의 일부로 작동하도록 설계되었습니다. Meta의 비전은 개발자가 기본 모델을 넘어 자신의 비전에 맞는 맞춤형 솔루션을 설계하고 제작할 수 있는 유연성을 제공하는 더 넓은 시스템에 접근할 수 있도록 하는 것입니다. 이러한 생각은 지난해 처음으로 핵심 LLM 외부 컴포넌트를 통합하면서 시작되었습니다.

모델 레이어를 넘어 Meta를 포함한 모든 이들이 책임감 있게 AI를 개발할 수 있도록 돕기 위해, 여러 샘플 애플리케이션은 물론 다국어 보안 모델인 Llama Guard 3와 프롬프트 주입 필터인 Prompt Guard와 같은 새로운 구성 요소를 포함하는 전체 참조 시스템을 출시했습니다. 이러한 샘플 애플리케이션은 오픈 소스로 제공되며, 커뮤니티는 이를 기반으로 개발할 수 있습니다.

Llama System 비전의 구성 요소 구현은 아직 분산되어 있습니다. 이러한 구성 요소의 인터페이스를 더 잘 정의하기 위해 업계, 스타트업 및 오픈 소스 커뮤니티와 협력하기 시작했고, “Llama Stack”에 대한 피드백 요청글을 GitHub에 게시했습니다. Llama Stack은 표준 도구 체인 구성 요소(미세 조정, 합성 데이터 생성) 및 에이전트 애플리케이션을 구축하기 위한 표준화된 인터페이스 세트입니다. 이러한 인터페이스가 생태계 전반 걸쳐 채택되어 더 쉬운 상호 운용성을 지원할 수 있기를 바랍니다.

우리는 해당 제안 에 대한 피드백과 개선 방안을 환영합니다. Llama를 중심으로 생태계를 성장시키고 개발자와 플랫폼 제공자의 진입 장벽을 낮출 수 있기를 기대합니다.

개방성이 이끄는 혁신

폐쇄형 모델과 달리, Llama 모델 가중치는 다운로드 가능합니다. 개발자는 자신의 니즈와 응용 목적에 따라 모델을 완전히 맞춤화하고, 새로운 데이터셋으로 학습하거나 추가 미세 조정을 수행할 수 있습니다. 이를 통해 더 넓은 개발자 커뮤니티 및 전 세계가 생성형 AI의 힘을 더욱 완전하게 실현할 수 있게 됩니다. 개발자는 자신의 응용 프로그램에 맞춰 커스터마이징할 수 있으며, 온프레미스, 클라우드, 로컬 랩탑 등 모든 환경에서 실행할 수 있으며, 이 모든 과정에서 Meta와 데이터를 공유할 필요가 없습니다.

많은 이들이 폐쇄형 모델이 더 비용 효율적이라고 주장하지만, Artificial Analysis의 테스트에 따르면 Llama 모델은 업계에서 가장 낮은 토큰당 비용을 제공합니다. 또한 마크 저커버그가 언급했듯, 오픈소스는 전 세계의 더 많은 사람들이 AI의 혜택과 기회에 누릴 수 있도록 하며, 권력이 소수에게 집중되지 않게 하고, 기술이 사회 전반에 걸쳐 보다 고르고 안전하게 배포될 수 있도록 할 것입니다. 이것이 바로 Meta가 오픈 액세스 AI가 업계 표준이 될 수 있도록 지속 노력하는 이유입니다.

Meta는 이전의 Llama 모델을 활용해 커뮤니티가 놀라운 것 들을 구축하는 것을 보았습니다. 여기에는 Llama를 기반으로 WhatsApp과 Messenger 내에 적용된 AI 학습 도우미, 임상 의사 결정을 돕기 위해 의료 분야에 맞춤 설계된 LLM, 그리고 의료 시스템이 환자의 입원 정보를 안전하게 관리하고 제공할 수 있도록 돕는 브라질의 비영리 헬스케어 스타트업이 포함됩니다. 이들이 오픈소스의 힘을 빌려 최신 모델을 기반으로 어떠한 결과물을 만들어낼지 기대가 됩니다.

Llama 3.1 405B와 함께 구축하기

일반 개발자가 405B 규모의 모델을 사용하는 것은 도전적인 일입니다. 매우 강력한 모델이지만, 이를 활용하기 위해서는 상당한 컴퓨팅 자원과 전문 지식이 필요하다는 것을 인지하고 있습니다. 커뮤니티와의 대화를 통해 우리는 생성형 AI 개발에는 단순히 모델에 명령을 보내는 것(prompting) 이상의 많은 요소가 있다는 사실을 알게 되었습니다. Meta는 모든 사람이 405B를 최대한 활용할 수 있기를 바라며, 이를 위해 다음과 같은 지원을 제공합니다:

실시간 및 일괄 추론
지도 학습 미세 조정
특정 애플리케이션에 대한 모델 평가
지속적인 사전 학습
검색 증강 생성(RAG)
함수 호출
합성 데이터 생성

Llama 생태계는 바로 이 부분에서 도움을 줄 수 있습니다. 개발자는 첫날부터 405B 모델의 모든 고급 기능을 활용하여 즉시 개발을 시작할 수 있습니다. 또한 개발자는 사용하기 쉬운 합성 데이터 생성처럼 고급 워크플로우를 경험하고, 모델 경량화를 위한 턴키 지침을 따르며, AWS, NVIDIA 및 Databricks를 비롯한 파트너의 솔루션을 통해 원활한 RAG를 구현할 수 있습니다. 더불어, Groq은 클라우드 배포를 위해 저지연 추론을 최적화했으며, Dell은 온프레미스 시스템에서도 이와 유사한 최적화를 이뤄냈습니다.

Meta는 vLLM, TensorRT, PyTorch와 같은 주요 커뮤니티 프로젝트와 협력해 커뮤니티가 결과물 배포를 준비할 수 있도록 첫 날부터 지원해왔습니다.

이번 405B 모델을 출시함으로써 커뮤니티 전반에 걸쳐 혁신을 촉진하고, 이러한 규모의 모델에 대한 추론 및 미세조정을 더 쉽게 만들며, 모델 경량화에 대한 다음 연구를 가능하게 할 수 있기를 바랍니다.

Llama 3.1 모델 컬렉션을 사용해 보세요.

Meta는 커뮤니티가 최신 모델로 어떠한 결과물을 만들어 낼지에 대해 기대가 매우 큽니다. 다국어 지원과 증가된 컨텍스트 길이를 활용하여 유용하고 새로운 경험을 구축할 수 있는 잠재력은 무궁무진합니다. 앞으로도 Llama Stack과 새로운 안전 도구를 통해, 오픈 소스 커뮤니티와 함께 책임감 있게 계속해서 발전해 나갈 수 있기를 기대합니다. 모델 출시 전, 우리는 레드팀과 안전 미세 조정을 통한 배포 전 위험 발견 연습 등 여러 조치를 통해 잠재적인 위험을 식별, 평가 및 완화하기 위해 노력하고 있니다. 예를 들어, 외부 및 내부 전문가와 함께 광범위한 레드 팀 작업을 수행하여 모델에 대한 스트레스 테스트를 진행하고, 예상치 못한 사용 방식을 찾아내고 있니다. (블로그 게시물을 통해 Llama 3.1 모델 컬렉션을 책임감 있게 확장하는 방법에 대해 알아보세요.)

이는 역대 최대 규모의 모델이지만, 아직 개척해야 할 영역이 많이 남아 있다고 생각합니다. 여기에는 다양한 기기에서 적용 가능한 크기, 추가적인 모달리티, 에이전트 플랫폼 계층에 대한 더 많은 투자 등이 포함됩니다. 언제나 그랬듯, 커뮤니티가 이 모델들을 활용해 구축할 놀라운 제품과 경험을 기대합니다.

이 작업은 AI 커뮤니티 전반의 파트너들의 지원을 받았습니다. 파트너들에게 감사의 말씀을 드립니다. (알파벳 순서로 나열): Accenture, Amazon Web Services, AMD, Anyscale, CloudFlare, Databricks, Dell, Deloitte, Fireworks.ai, Google Cloud, Groq, Hugging Face, IBM WatsonX, Infosys, Intel, Kaggle, Microsoft Azure, NVIDIA, OctoAI, Oracle Cloud, PwC, Replicate, Sarvam AI, Scale.AI, SNCF, Snowflake, Together AI 및 UC Berkeley Sky Computing Lab에서 개발한 vLLM 프로젝트

*영어 원문 보기

관련 뉴스