{"id":23940,"date":"2024-07-23T17:19:06","date_gmt":"2024-07-23T15:19:06","guid":{"rendered":"https:\/\/about.fb.com\/fr\/?p=23940"},"modified":"2024-07-23T17:38:03","modified_gmt":"2024-07-23T15:38:03","slug":"lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour","status":"publish","type":"post","link":"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/","title":{"rendered":"Lancement de Llama 3.1 : nos mod\u00e8les les plus performants \u00e0 ce jour"},"content":{"rendered":"<p><b>Les nouveaut\u00e9s :\u00a0<\/b><\/p>\n<ul>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Meta s&rsquo;engage \u00e0 rendre l&rsquo;IA accessible \u00e0 tous. Mark Zuckerberg explique, <\/span><a href=\"https:\/\/about.fb.com\/news\/2024\/07\/open-source-ai-is-the-path-forward\/\"><span style=\"font-weight: 400\">dans cette lettre<\/span><\/a><span style=\"font-weight: 400\">, pourquoi l&rsquo;open-source est b\u00e9n\u00e9fique pour les d\u00e9veloppeurs, pour Meta et pour le monde.<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">En mettant l&rsquo;intelligence ouverte \u00e0 la port\u00e9e de tous, <a href=\"https:\/\/ai.meta.com\/research\/publications\/the-llama-3-herd-of-models\/\">nos derniers mod\u00e8les<\/a> \u00e9tendent la longueur du contexte \u00e0 128K, ajoutent la prise en charge de huit langues et incluent Llama 3.1 405B, le premier mod\u00e8le AI open-source \u201cfrontier-level\u201d.\u00a0<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Llama 3.1 405B est unique en son genre, avec une flexibilit\u00e9 in\u00e9gal\u00e9e, un contr\u00f4le et des capacit\u00e9s de pointe qui rivalisent avec les meilleurs mod\u00e8les ferm\u00e9s. Notre nouveau mod\u00e8le permettra \u00e0 la communaut\u00e9 de d\u00e9bloquer de nouveaux flux de travail, tels que la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques et la distillation de mod\u00e8les.<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Nous continuons \u00e0 d\u00e9velopper Llama pour en faire un syst\u00e8me fournissant davantage de composants qui fonctionnent avec le mod\u00e8le, y compris un syst\u00e8me de r\u00e9f\u00e9rence. Nous voulons donner aux d\u00e9veloppeurs les outils n\u00e9cessaires pour cr\u00e9er leurs propres agents personnalis\u00e9s et de nouveaux types de comportements agentiques. Nous renfor\u00e7ons cela avec de <\/span><a href=\"http:\/\/ai.meta.com\/blog\/meta-llama-3-1-ai-responsibility\"><span style=\"font-weight: 400\">nouveaux outils de s\u00e9curit\u00e9 et de s\u00fbret\u00e9<\/span><\/a><span style=\"font-weight: 400\">, y compris Llama Guard 3 et Prompt Guard, pour aider \u00e0 construire de mani\u00e8re responsable. Nous lan\u00e7ons \u00e9galement un <a href=\"https:\/\/github.com\/meta-llama\/llama-toolchain\/issues\">appel \u00e0 commentaires<\/a> sur l&rsquo;API Llama Stack, une interface standard qui, nous l&rsquo;esp\u00e9rons, permettra aux projets tiers d&rsquo;exploiter plus facilement les mod\u00e8les Llama.<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">L&rsquo;\u00e9cosyst\u00e8me est pr\u00eat \u00e0 \u00eatre lanc\u00e9 avec plus de 25 partenaires, dont AWS, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud et SNCF Gares&amp;connexions, qui proposeront des services d\u00e8s le premier jour.<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">SNCF Gares &amp; Connexions figure parmi les premiers partenaires \u00e0 exp\u00e9rimenter llama3.1. Dans la continuit\u00e9 du dispositif autour de la connectivit\u00e9 pr\u00e9sent\u00e9 \u00e0 Vivatech et STATION F, SNCF Gares &amp; Connexions poursuit des exp\u00e9rimentations qui int\u00e8grent de nouvelles fonctionnalit\u00e9s dont le multilinguisme au service de l\u2019information et de l\u2019orientation des voyageurs en gare en fran\u00e7ais, anglais, allemand, espagnol, italien et portugais. Pour renforcer le dispositif, une exp\u00e9rience rapide et personnalis\u00e9e est accessible \u00e9galement via un chatbot WhatsApp, qui permet d&rsquo;apporter des informations en temps r\u00e9el aux voyageurs par exemple sur leurs d\u00e9placements en gare.<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400\">Jusqu&rsquo;\u00e0 aujourd&rsquo;hui, les grands mod\u00e8les de langage open-source \u00e9taient g\u00e9n\u00e9ralement en retard par rapport \u00e0 leurs homologues closed-source en termes de capacit\u00e9s et de performances. Aujourd&rsquo;hui, nous entrons dans une nouvelle \u00e8re o\u00f9 l&rsquo;open-source ouvre la voie. Nous d\u00e9voilons Llama 3.1 405B, que nous consid\u00e9rons comme le mod\u00e8le de fondation le plus grand et le plus performant au monde, disponible en libre acc\u00e8s. Avec plus de 300 millions de t\u00e9l\u00e9chargements de toutes les versions de Llama \u00e0 ce jour, nous ne faisons que commencer.<\/span><\/p>\n<h2><b>Pr\u00e9sentation de Llama 3.1<\/b><\/h2>\n<p><span style=\"font-weight: 400\">Llama 3.1 405B est le premier mod\u00e8le disponible en libre acc\u00e8s qui rivalise avec les meilleurs mod\u00e8les d&rsquo;IA en termes de capacit\u00e9s de pointe dans les domaines de la connaissance g\u00e9n\u00e9rale, de l&rsquo;orientation, des math\u00e9matiques, de l&rsquo;utilisation d&rsquo;outils et de la traduction multilingue. Avec la sortie du mod\u00e8le 405B, nous sommes pr\u00eats \u00e0 stimuler l&rsquo;innovation, avec des possibilit\u00e9s de croissance et d&rsquo;exploration sans pr\u00e9c\u00e9dent. Nous pensons que la derni\u00e8re g\u00e9n\u00e9ration de Llama va donner naissance \u00e0 de nouvelles applications et \u00e0 de nouveaux paradigmes de mod\u00e9lisation, y compris la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques pour permettre l&rsquo;am\u00e9lioration et l&rsquo;entra\u00eenement de mod\u00e8les plus petits, ainsi que la distillation de mod\u00e8les &#8211; une capacit\u00e9 qui n&rsquo;a jamais \u00e9t\u00e9 atteinte \u00e0 cette \u00e9chelle dans le domaine de l&rsquo;open-source.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Dans le cadre de la derni\u00e8re version, nous pr\u00e9sentons des versions am\u00e9lior\u00e9es des mod\u00e8les 8B et 70B. Ceux-ci sont multilingues et disposent d&rsquo;une longueur de de contexte nettement plus importante (128 Ko), d&rsquo;une utilisation d&rsquo;outils de pointe et de capacit\u00e9s de raisonnement globalement plus solides. Cela permet \u00e0 nos derniers mod\u00e8les de prendre en charge des cas d&rsquo;utilisation avanc\u00e9s, tels que le r\u00e9sum\u00e9 de textes longs, les agents conversationnels multilingues et les assistants de codage. Nous avons \u00e9galement modifi\u00e9 notre licence, ce qui permet aux d\u00e9veloppeurs d&rsquo;utiliser les r\u00e9sultats des mod\u00e8les Llama, y compris le 405B, pour am\u00e9liorer d&rsquo;autres mod\u00e8les. Fid\u00e8les \u00e0 notre engagement en faveur de l&rsquo;open-source, nous mettons d\u00e8s aujourd&rsquo;hui ces mod\u00e8les \u00e0 la disposition de la communaut\u00e9 pour t\u00e9l\u00e9chargement sur <\/span><a href=\"http:\/\/llama.meta.com\"><span style=\"font-weight: 400\">llama.meta.com<\/span><\/a><span style=\"font-weight: 400\"> et <a href=\"https:\/\/huggingface.co\/meta-llama\">Hugging Face<\/a>, ainsi que pour le d\u00e9veloppement imm\u00e9diat sur notre vaste \u00e9cosyst\u00e8me de plateformes partenaires.<\/span><\/p>\n<h2><b>\u00c9valuations du mod\u00e8le\u00a0<\/b><\/h2>\n<p><span style=\"font-weight: 400\">Pour cette version, nous avons \u00e9valu\u00e9 les performances sur plus de 150 ensembles de donn\u00e9es de r\u00e9f\u00e9rence couvrant un large \u00e9ventail de langues. En outre, nous avons r\u00e9alis\u00e9 des \u00e9valuations humaines approfondies qui comparent Llama 3.1 \u00e0 des mod\u00e8les concurrents dans des sc\u00e9narios r\u00e9els. Notre \u00e9valuation exp\u00e9rimentale sugg\u00e8re que notre mod\u00e8le phare est comp\u00e9titif par rapport aux principaux mod\u00e8les de fondation sur une s\u00e9rie de t\u00e2ches, y compris GPT-4, GPT-4o, et Claude 3.5 Sonnet. En outre, nos petits mod\u00e8les sont comp\u00e9titifs par rapport aux mod\u00e8les closed et open-source qui ont un nombre similaire de param\u00e8tres.<\/span><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-23951\" src=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-3.png?w=960&#038;resize=960%2C665\" alt=\"\" width=\"960\" height=\"665\" srcset=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-3.png?w=3201 3201w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-3.png?w=578 578w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-3.png?w=300 300w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-3.png?w=768 768w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-3.png?w=1024 1024w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-3.png?w=1536 1536w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-3.png?w=2048 2048w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-3.png?w=1559 1559w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-3.png?w=800 800w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-3.png?w=1920 1920w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-3.png?w=2880 2880w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-23952\" src=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-4.png?w=960&#038;resize=960%2C665\" alt=\"\" width=\"960\" height=\"665\" srcset=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-4.png?w=3201 3201w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-4.png?w=578 578w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-4.png?w=300 300w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-4.png?w=768 768w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-4.png?w=1024 1024w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-4.png?w=1536 1536w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-4.png?w=2048 2048w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-4.png?w=1559 1559w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-4.png?w=800 800w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-4.png?w=1920 1920w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-4.png?w=2880 2880w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-23950\" src=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-2.png?w=960&#038;resize=960%2C510\" alt=\"\" width=\"960\" height=\"510\" srcset=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-2.png?w=3840 3840w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-2.png?w=600 600w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-2.png?w=300 300w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-2.png?w=768 768w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-2.png?w=1024 1024w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-2.png?w=1536 1536w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-2.png?w=2048 2048w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-2.png?w=1920 1920w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-2.png?w=800 800w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/Llama-2.png?w=2880 2880w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><\/p>\n<p>&nbsp;<\/p>\n<h2><b>Architecture du mod\u00e8le<\/b><\/h2>\n<p><span style=\"font-weight: 400\">L&rsquo;entra\u00eenement de Llama 3.1 405B sur plus de 15 trillions de tokens, notre plus grand mod\u00e8le \u00e0 ce jour, a constitu\u00e9 un d\u00e9fi majeur. Pour permettre des entra\u00eenements \u00e0 cette \u00e9chelle et obtenir les r\u00e9sultats que nous avons obtenus dans un d\u00e9lai raisonnable, nous avons consid\u00e9rablement optimis\u00e9 notre pile d&rsquo;entra\u00eenement compl\u00e8te et pouss\u00e9 l&rsquo;entra\u00eenement de notre mod\u00e8le sur plus de 16 000 GPU H100, faisant du 405B le premier mod\u00e8le Llama entra\u00een\u00e9 \u00e0 cette \u00e9chelle.<\/span><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-23954\" src=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/452342830_524225500031704_780745667054798266_n.png?w=960&#038;resize=960%2C263\" alt=\"\" width=\"960\" height=\"263\" srcset=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/452342830_524225500031704_780745667054798266_n.png?w=3840 3840w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/452342830_524225500031704_780745667054798266_n.png?w=600 600w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/452342830_524225500031704_780745667054798266_n.png?w=300 300w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/452342830_524225500031704_780745667054798266_n.png?w=768 768w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/452342830_524225500031704_780745667054798266_n.png?w=1024 1024w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/452342830_524225500031704_780745667054798266_n.png?w=1536 1536w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/452342830_524225500031704_780745667054798266_n.png?w=2048 2048w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/452342830_524225500031704_780745667054798266_n.png?w=1920 1920w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/452342830_524225500031704_780745667054798266_n.png?w=800 800w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/452342830_524225500031704_780745667054798266_n.png?w=2880 2880w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><\/p>\n<p><span style=\"font-weight: 400\">Pour y rem\u00e9dier, nous avons fait des choix de conception qui visent \u00e0 maintenir le processus de d\u00e9veloppement du mod\u00e8le \u00e9volutif et simple.<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Nous avons opt\u00e9 pour une architecture de mod\u00e8le de transformateur standard de d\u00e9codeur uniquement avec des adaptations mineures, plut\u00f4t que pour un mod\u00e8le de m\u00e9lange d&rsquo;experts (MoE) afin de maximiser la stabilit\u00e9 de l&rsquo;apprentissage.<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Nous avons adopt\u00e9 une proc\u00e9dure it\u00e9rative de post-entra\u00eenement, o\u00f9 chaque tour utilise un fine-tuning supervis\u00e9 et une optimisation directe des pr\u00e9f\u00e9rences. Cela nous a permis de cr\u00e9er des donn\u00e9es synth\u00e9tiques de la plus haute qualit\u00e9 pour chaque cycle et d&rsquo;am\u00e9liorer les performances de chaque capacit\u00e9.<\/span><span style=\"font-weight: 400\"><br \/>\n<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400\">Par rapport aux versions pr\u00e9c\u00e9dentes de Llama, nous avons am\u00e9lior\u00e9 \u00e0 la fois la quantit\u00e9 et la qualit\u00e9 des donn\u00e9es que nous utilisons pour la pr\u00e9- et la post-formation. Ces am\u00e9liorations comprennent le d\u00e9veloppement de pipelines de pr\u00e9-traitement et de curation plus minutieux pour les donn\u00e9es de pr\u00e9-entra\u00eenement, le d\u00e9veloppement d&rsquo;une assurance qualit\u00e9 plus rigoureuse et des approches de filtrage pour les donn\u00e9es de post-entra\u00eenement.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Comme pr\u00e9vu par les lois d&rsquo;\u00e9chelle pour les mod\u00e8les de langage, notre nouveau mod\u00e8le phare surpasse les mod\u00e8les plus petits form\u00e9s \u00e0 l&rsquo;aide de la m\u00eame proc\u00e9dure. Nous avons \u00e9galement utilis\u00e9 le mod\u00e8le de param\u00e8tres 405B pour am\u00e9liorer la qualit\u00e9 post-entra\u00eenement de nos mod\u00e8les plus petits.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Pour soutenir l&rsquo;inf\u00e9rence de production \u00e0 grande \u00e9chelle pour un mod\u00e8le \u00e0 l&rsquo;\u00e9chelle du 405B, nous avons quantifi\u00e9 nos mod\u00e8les de 16 bits (BF16) \u00e0 8 bits (FP8) num\u00e9riques, r\u00e9duisant efficacement les exigences de calcul n\u00e9cessaires et permettant au mod\u00e8le de fonctionner dans un seul n\u0153ud de serveur.<\/span><\/p>\n<h2><b>Fine-tuning de l&rsquo;instruction et du chat<\/b><\/h2>\n<p><span style=\"font-weight: 400\">Avec Llama 3.1 405B, nous nous sommes efforc\u00e9s d&rsquo;am\u00e9liorer l&rsquo;utilit\u00e9, la qualit\u00e9 et la capacit\u00e9 du mod\u00e8le \u00e0 suivre des instructions d\u00e9taill\u00e9es en r\u00e9ponse aux instructions de l&rsquo;utilisateur, tout en garantissant des niveaux \u00e9lev\u00e9s de s\u00e9curit\u00e9. Nos plus grands d\u00e9fis ont \u00e9t\u00e9 la prise en charge d&rsquo;un plus grand nombre de capacit\u00e9s, la fen\u00eatre contextuelle de 128K et l&rsquo;augmentation de la taille des mod\u00e8les.<\/span><\/p>\n<p><span style=\"font-weight: 400\">En post-entra\u00eenement, nous produisons des mod\u00e8les de chat finaux en effectuant plusieurs cycles d&rsquo;alignement sur le mod\u00e8le pr\u00e9-entra\u00een\u00e9. Chaque cycle implique un fine-tuning supervis\u00e9 (supervised fine-tuning &#8211; SFT), un \u00e9chantillonnage par rejet (Rejection Sampling &#8211; RS) et une optimisation directe des pr\u00e9f\u00e9rences (Direct Preference Optimization &#8211; DPO). Nous utilisons la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques pour produire la grande majorit\u00e9 de nos exemples de SFT, en it\u00e9rant plusieurs fois pour produire des donn\u00e9es synth\u00e9tiques de qualit\u00e9 de plus en plus \u00e9lev\u00e9e pour toutes les capacit\u00e9s. En outre, nous investissons dans de multiples techniques de traitement des donn\u00e9es pour filtrer ces donn\u00e9es synth\u00e9tiques afin d&rsquo;obtenir la meilleure qualit\u00e9 possible. Cela nous permet d&rsquo;adapter la quantit\u00e9 de donn\u00e9es fine-tun\u00e9es \u00e0 l&rsquo;ensemble des capacit\u00e9s.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Nous \u00e9quilibrons soigneusement les donn\u00e9es afin de produire un mod\u00e8le de haute qualit\u00e9 pour toutes les capacit\u00e9s. Par exemple, nous maintenons la qualit\u00e9 de notre mod\u00e8le sur les benchmarks \u00e0 fen\u00eatre de contexte court, m\u00eame lorsque nous l&rsquo;\u00e9tendons \u00e0 un contexte de 128K. De m\u00eame, notre mod\u00e8le continue \u00e0 fournir des r\u00e9ponses maximalement utiles, m\u00eame lorsque nous ajoutons des mesures d&rsquo;att\u00e9nuation de la s\u00e9curit\u00e9.<\/span><\/p>\n<h2><b>Le syst\u00e8me Llama<\/b><\/h2>\n<p><span style=\"font-weight: 400\">Les mod\u00e8les Llama ont toujours \u00e9t\u00e9 con\u00e7us pour fonctionner dans le cadre d&rsquo;un syst\u00e8me global capable d&rsquo;orchestrer plusieurs composants, y compris l&rsquo;appel \u00e0 des outils externes. Notre vision est d&rsquo;aller au-del\u00e0 des mod\u00e8les de fondation pour donner aux d\u00e9veloppeurs l&rsquo;acc\u00e8s \u00e0 un syst\u00e8me plus large qui leur donne la flexibilit\u00e9 de concevoir et de cr\u00e9er des offres personnalis\u00e9es qui s&rsquo;alignent sur leur vision. Cette r\u00e9flexion a d\u00e9but\u00e9 l&rsquo;ann\u00e9e derni\u00e8re lorsque nous avons <\/span><a href=\"https:\/\/ai.meta.com\/blog\/purple-llama-open-trust-safety-generative-ai\/\"><span style=\"font-weight: 400\">pr\u00e9sent\u00e9<\/span><\/a><span style=\"font-weight: 400\"> pour la premi\u00e8re fois l&rsquo;incorporation de composants en dehors du LLM principal.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Dans le cadre de nos efforts continus pour d\u00e9velopper l&rsquo;IA de mani\u00e8re responsable au-del\u00e0 de la couche de mod\u00e8le et pour aider les autres \u00e0 faire de m\u00eame, nous publions un <\/span><a href=\"https:\/\/github.com\/meta-llama\/llama-agentic-system\"><span style=\"font-weight: 400\">syst\u00e8me de r\u00e9f\u00e9rence<\/span><\/a><span style=\"font-weight: 400\"> complet qui comprend plusieurs exemples d&rsquo;applications et de nouveaux composants tels que <\/span><a href=\"https:\/\/llama.meta.com\/trust-and-safety\/#safeguard-model%20?\"><span style=\"font-weight: 400\">Llama Guard 3<\/span><\/a><span style=\"font-weight: 400\">, un mod\u00e8le de s\u00e9curit\u00e9 multilingue, et Prompt Guard, un filtre d&rsquo;injection de prompts. Ces exemples d&rsquo;applications sont en open-source et peuvent \u00eatre utilis\u00e9s par la communaut\u00e9.<\/span><\/p>\n<p><span style=\"font-weight: 400\">La mise en \u0153uvre des composants de cette vision du syst\u00e8me Llama est encore fragment\u00e9e. C&rsquo;est pourquoi nous avons commenc\u00e9 \u00e0 travailler avec l&rsquo;industrie, les start-up et la communaut\u00e9 au sens large pour aider \u00e0 mieux d\u00e9finir les interfaces de ces composants. Pour ce faire, nous lan\u00e7ons un <a href=\"https:\/\/github.com\/meta-llama\/llama-toolchain\/issues\">appel \u00e0 commentaires<\/a> sur GitHub pour ce que nous appelons \u00ab Llama Stack \u00bb. Llama Stack est un ensemble d&rsquo;interfaces standardis\u00e9es et valid\u00e9es pour la construction de composants canoniques de la cha\u00eene d&rsquo;outils (fine-tuning, g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques) et d&rsquo;applications agentiques. Nous esp\u00e9rons que ces interfaces seront adopt\u00e9es par l&rsquo;ensemble de l&rsquo;\u00e9cosyst\u00e8me, ce qui devrait faciliter l&rsquo;interop\u00e9rabilit\u00e9.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Nous sommes ouverts \u00e0 tout commentaire et \u00e0 toute am\u00e9lioration de la <a href=\"https:\/\/github.com\/meta-llama\/llama-toolchain\/issues\">proposition<\/a>. Nous sommes impatients de d\u00e9velopper l&rsquo;\u00e9cosyst\u00e8me autour de Llama et d&rsquo;abaisser les barri\u00e8res pour les d\u00e9veloppeurs et les fournisseurs de plateformes.<\/span><\/p>\n<div style=\"width: 960px;\" class=\"wp-video\"><video class=\"wp-video-shortcode\" id=\"video-23940-1\" width=\"960\" height=\"1280\" preload=\"metadata\" controls=\"controls\"><source type=\"video\/mp4\" src=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/452347685_7854985201252880_2659003312856198976_n.mp4?_=1\" \/><a href=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/452347685_7854985201252880_2659003312856198976_n.mp4\">https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/452347685_7854985201252880_2659003312856198976_n.mp4<\/a><\/video><\/div>\n<h2><b>L&rsquo;approche ouverte favorise l&rsquo;innovation<\/b><\/h2>\n<p><span style=\"font-weight: 400\">Contrairement aux mod\u00e8les ferm\u00e9s, les poids des mod\u00e8les Llama peuvent <\/span><a href=\"http:\/\/llama.meta.com\"><span style=\"font-weight: 400\">\u00eatre t\u00e9l\u00e9charg\u00e9s<\/span><\/a><span style=\"font-weight: 400\">. Les d\u00e9veloppeurs peuvent enti\u00e8rement personnaliser les mod\u00e8les en fonction de leurs besoins et de leurs applications, s&rsquo;entra\u00eener sur de nouveaux ensembles de donn\u00e9es et proc\u00e9der \u00e0 des ajustements suppl\u00e9mentaires. Cela permet \u00e0 l&rsquo;ensemble de la communaut\u00e9 des d\u00e9veloppeurs et au monde entier de mieux r\u00e9aliser la puissance de l&rsquo;IA g\u00e9n\u00e9rative. Les d\u00e9veloppeurs peuvent enti\u00e8rement personnaliser leurs applications et les ex\u00e9cuter dans n&rsquo;importe quel environnement, que ce soit sur sursite, dans le cloud ou m\u00eame localement sur un ordinateur portable, le tout sans partager de donn\u00e9es avec Meta.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Bien que beaucoup puissent affirmer que les mod\u00e8les ferm\u00e9s sont plus rentables, les mod\u00e8les Llama offrent un co\u00fbt par token parmi les plus bas de l&rsquo;industrie, selon les tests effectu\u00e9s par <\/span><a href=\"https:\/\/artificialanalysis.ai\/\"><span style=\"font-weight: 400\">Artificial Analysis<\/span><\/a><span style=\"font-weight: 400\">. Comme <\/span><a href=\"https:\/\/about.fb.com\/news\/2024\/07\/open-source-ai-is-the-path-forward\/\"><span style=\"font-weight: 400\">l&rsquo;a fait remarquer Mark Zuckerberg<\/span><\/a><span style=\"font-weight: 400\">, l&rsquo;open-source permettra \u00e0 un plus grand nombre de personnes dans le monde d&rsquo;avoir acc\u00e8s aux avantages et aux possibilit\u00e9s de l&rsquo;IA, de ne pas concentrer le pouvoir entre les mains d&rsquo;un petit nombre et de d\u00e9ployer la technologie de mani\u00e8re plus homog\u00e8ne et plus s\u00fbre dans la soci\u00e9t\u00e9. C&rsquo;est pourquoi nous continuons \u00e0 prendre des mesures pour que l&rsquo;IA en libre acc\u00e8s devienne la norme du secteur.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Nous avons vu la <\/span><a href=\"https:\/\/llama.meta.com\/community-stories\/\"><span style=\"font-weight: 400\">communaut\u00e9<\/span><\/a><span style=\"font-weight: 400\"> r\u00e9aliser des choses \u00e9tonnantes avec les mod\u00e8les Llama pr\u00e9c\u00e9dents, notamment <\/span><a href=\"https:\/\/ai.meta.com\/blog\/foondamate-study-aid-education-llama\/\"><span style=\"font-weight: 400\">un compagnon d&rsquo;\u00e9tude IA<\/span><\/a><span style=\"font-weight: 400\"> construit avec Llama et d\u00e9ploy\u00e9 dans WhatsApp et Messenger, un <\/span><a href=\"https:\/\/ai.meta.com\/blog\/llama-2-3-meditron-yale-medicine-epfl-open-source-llm\/\"><span style=\"font-weight: 400\">LLM adapt\u00e9 au domaine m\u00e9dical <\/span><\/a><span style=\"font-weight: 400\">con\u00e7u pour aider \u00e0 guider la prise de d\u00e9cision clinique, et une <\/span><a href=\"https:\/\/github.com\/noharm-ai\/summary\"><span style=\"font-weight: 400\">start-up \u00e0 but non lucratif dans le domaine de la sant\u00e9<\/span><\/a><span style=\"font-weight: 400\"> au Br\u00e9sil qui facilite l&rsquo;organisation et la communication par le syst\u00e8me de sant\u00e9 des informations relatives \u00e0 l&rsquo;hospitalisation des patients, tout cela en s\u00e9curisant les donn\u00e9es. Nous sommes impatients de voir ce qu&rsquo;ils construiront avec nos derniers mod\u00e8les gr\u00e2ce \u00e0 la puissance de l&rsquo;open-source.<\/span><\/p>\n<h2><b>Construire avec Llama 3.1 405B<\/b><\/h2>\n<p><span style=\"font-weight: 400\">Pour le d\u00e9veloppeur moyen, l&rsquo;utilisation d&rsquo;un mod\u00e8le \u00e0 l&rsquo;\u00e9chelle du 405B est un d\u00e9fi. Bien qu&rsquo;il s&rsquo;agisse d&rsquo;un mod\u00e8le incroyablement puissant, nous reconnaissons qu&rsquo;il n\u00e9cessite des ressources de calcul et une expertise consid\u00e9rables. Nous avons \u00e9chang\u00e9 avec la communaut\u00e9, et le d\u00e9veloppement de l&rsquo;IA g\u00e9n\u00e9rative ne se limite pas aux mod\u00e8les d&rsquo;incitation. Nous voulons permettre \u00e0 chacun de tirer le meilleur parti de la 405B, y compris :<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Inf\u00e9rence en temps r\u00e9el et par lots<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Fine-tuning supervis\u00e9<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">\u00c9valuation de votre mod\u00e8le pour votre application sp\u00e9cifique<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Pr\u00e9-entra\u00eenement continu<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">G\u00e9n\u00e9ration augment\u00e9e\u00a0 de r\u00e9cup\u00e9ration (RAG)<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Appel de fonction<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">G\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques<\/span><span style=\"font-weight: 400\"><br \/>\n<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400\">C&rsquo;est l\u00e0 que l&rsquo;\u00e9cosyst\u00e8me Llama peut vous aider. D\u00e8s le premier jour, les d\u00e9veloppeurs peuvent profiter de toutes les capacit\u00e9s avanc\u00e9es du mod\u00e8le 405B et commencer \u00e0 construire imm\u00e9diatement. Les d\u00e9veloppeurs peuvent \u00e9galement explorer des flux de travail avanc\u00e9s tels que la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques faciles \u00e0 utiliser, suivre des instructions cl\u00e9s en main pour la distillation de mod\u00e8les et activer un RAG transparent avec des solutions de partenaires, notamment AWS, NVIDIA et Databricks. En outre, Groq a optimis\u00e9 l&rsquo;inf\u00e9rence \u00e0 faible latence pour les d\u00e9ploiements dans le cloud, Dell r\u00e9alisant des optimisations similaires pour les syst\u00e8mes sur site.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Nous avons travaill\u00e9 avec des projets communautaires cl\u00e9s tels que vLLM, TensorRT et PyTorch pour int\u00e9grer le support d\u00e8s le premier jour afin de s&rsquo;assurer que la communaut\u00e9 est pr\u00eate pour le d\u00e9ploiement en production.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Nous esp\u00e9rons que notre publication du 405B stimulera \u00e9galement l&rsquo;innovation au sein de la communaut\u00e9 \u00e9largie afin de faciliter l&rsquo;inf\u00e9rence et le fine-tuning des mod\u00e8les de cette \u00e9chelle et de permettre la prochaine vague de recherche sur la distillation de mod\u00e8les.<\/span><\/p>\n<h2><span style=\"font-weight: 400\">Testez la collection de mod\u00e8les Llama 3.1 d\u00e8s aujourd&rsquo;hui<\/span><\/h2>\n<p><span style=\"font-weight: 400\">Nous sommes impatients de voir ce que la communaut\u00e9 fera de ce travail. Il y a tellement de potentiel pour construire de nouvelles exp\u00e9riences utiles en utilisant le multilinguisme et l&rsquo;augmentation de la longueur de la fen\u00eatre de contexte. Avec la pile Llama et les nouveaux outils de s\u00e9curit\u00e9, nous sommes impatients de continuer \u00e0 construire avec la communaut\u00e9 open-source de mani\u00e8re responsable. Avant de publier un mod\u00e8le, nous nous effor\u00e7ons d&rsquo;identifier, d&rsquo;\u00e9valuer et d&rsquo;att\u00e9nuer les risques potentiels par le biais de plusieurs mesures, notamment des exercices de d\u00e9couverte des risques avant le d\u00e9ploiement, par l&rsquo;interm\u00e9diaire d&rsquo;une \u00e9quipe d&rsquo;experts et d&rsquo;une mise au point de la s\u00e9curit\u00e9. Par exemple, nous menons des exercices intensifs avec des experts externes et internes pour tester les mod\u00e8les et trouver des fa\u00e7ons inattendues de les utiliser. (Pour en savoir plus sur la fa\u00e7on dont nous d\u00e9veloppons notre collection de mod\u00e8les Llama 3.1 de mani\u00e8re responsable, lisez cet <\/span><a href=\"http:\/\/ai.meta.com\/blog\/meta-llama-3-1-ai-responsibility\"><span style=\"font-weight: 400\">article de blog<\/span><\/a><span style=\"font-weight: 400\">).<\/span><span style=\"font-weight: 400\"><br \/>\n<\/span><\/p>\n<p><span style=\"font-weight: 400\">Bien qu&rsquo;il s&rsquo;agisse de notre plus grand mod\u00e8le \u00e0 ce jour, nous pensons qu&rsquo;il y a encore beaucoup de choses \u00e0 explorer \u00e0 l&rsquo;avenir, notamment des tailles plus adapt\u00e9es aux appareils, des modalit\u00e9s suppl\u00e9mentaires et davantage d&rsquo;investissements au niveau de la plateforme d&rsquo;agents. Comme toujours, nous sommes impatients de d\u00e9couvrir les produits et les exp\u00e9riences extraordinaires que la communaut\u00e9 va cr\u00e9er avec ces mod\u00e8les.<\/span><span style=\"font-weight: 400\"><br \/>\n<\/span><\/p>\n<p><i><span style=\"font-weight: 400\">Ce travail a \u00e9t\u00e9 soutenu par nos partenaires de la communaut\u00e9 de l&rsquo;IA.<\/span><\/i> <i><span style=\"font-weight: 400\">Nous tenons \u00e0 les remercier (par ordre alphab\u00e9tique) :<\/span><\/i> <i><span style=\"font-weight: 400\">Accenture, Amazon Web Services, AMD, Anyscale, CloudFlare, Databricks, Dell, Deloitte, Fireworks.ai, Google Cloud, Groq, Hugging Face, IBM WatsonX, Infosys, Intel, Kaggle, Microsoft Azure, NVIDIA DGX Cloud, OctoAI, Oracle Cloud, PwC, Replicate, Sarvam AI, Scale.AI, SNCF, Snowflake, et UC Berkeley &#8211; vLLM Project.<\/span><\/i><\/p>\n","protected":false},"excerpt":{"rendered":"Les nouveaut\u00e9s :\u00a0 Meta s&rsquo;engage \u00e0 rendre l&rsquo;IA accessible \u00e0 tous. Mark Zuckerberg explique, dans cette lettre, pourquoi l&rsquo;open-source est b\u00e9n\u00e9fique pour les d\u00e9veloppeurs, pour Meta et pour le monde. En mettant l&rsquo;intelligence ouverte \u00e0 la port\u00e9e de tous, nos derniers mod\u00e8les \u00e9tendent la longueur du contexte \u00e0 128K, ajoutent la prise en charge de huit langues et incluent Llama 3.1 405B, le premier mod\u00e8le AI open-source \u201cfrontier-level\u201d.\u00a0 Llama 3.1 405B est unique en son genre, avec une flexibilit\u00e9 in\u00e9gal\u00e9e, un contr\u00f4le et des capacit\u00e9s de pointe qui rivalisent avec les meilleurs mod\u00e8les ferm\u00e9s. Notre nouveau mod\u00e8le permettra \u00e0 la communaut\u00e9 de d\u00e9bloquer de nouveaux flux de travail, tels que la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques et la distillation de mod\u00e8les. Nous continuons \u00e0 d\u00e9velopper Llama pour en faire un syst\u00e8me fournissant davantage de composants qui fonctionnent avec le mod\u00e8le, y compris un syst\u00e8me de r\u00e9f\u00e9rence. Nous voulons donner aux d\u00e9veloppeurs les outils n\u00e9cessaires pour cr\u00e9er leurs propres agents personnalis\u00e9s et de nouveaux types de comportements agentiques. Nous renfor\u00e7ons cela avec de nouveaux outils de s\u00e9curit\u00e9 et de s\u00fbret\u00e9, y compris Llama Guard 3 et Prompt Guard, pour aider \u00e0 construire de mani\u00e8re responsable. Nous lan\u00e7ons \u00e9galement un appel \u00e0 commentaires sur l&rsquo;API Llama Stack, une interface standard qui, nous l&rsquo;esp\u00e9rons, permettra aux projets tiers d&rsquo;exploiter plus facilement les mod\u00e8les Llama. L&rsquo;\u00e9cosyst\u00e8me est pr\u00eat \u00e0 \u00eatre lanc\u00e9 avec plus de 25 partenaires, dont AWS, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud et SNCF Gares&amp;connexions, qui proposeront des services d\u00e8s le premier jour. SNCF Gares &amp; Connexions figure parmi les premiers partenaires \u00e0 exp\u00e9rimenter llama3.1. Dans la continuit\u00e9 du dispositif autour de la connectivit\u00e9 pr\u00e9sent\u00e9 \u00e0 Vivatech et STATION F, SNCF Gares &amp; Connexions poursuit des exp\u00e9rimentations qui int\u00e8grent de nouvelles fonctionnalit\u00e9s dont le multilinguisme au service de l\u2019information et de l\u2019orientation des voyageurs en gare en fran\u00e7ais, anglais, allemand, espagnol, italien et portugais. Pour renforcer le dispositif, une exp\u00e9rience rapide et personnalis\u00e9e est accessible \u00e9galement via un chatbot WhatsApp, qui permet d&rsquo;apporter des informations en temps r\u00e9el aux voyageurs par exemple sur leurs d\u00e9placements en gare. Jusqu&rsquo;\u00e0 aujourd&rsquo;hui, les grands mod\u00e8les de langage open-source \u00e9taient g\u00e9n\u00e9ralement en retard par rapport \u00e0 leurs homologues closed-source en termes de capacit\u00e9s et de performances. Aujourd&rsquo;hui, nous entrons dans une nouvelle \u00e8re o\u00f9 l&rsquo;open-source ouvre la voie. Nous d\u00e9voilons Llama 3.1 405B, que nous consid\u00e9rons comme le mod\u00e8le de fondation le plus grand et le plus performant au monde, disponible en libre acc\u00e8s. Avec plus de 300 millions de t\u00e9l\u00e9chargements de toutes les versions de Llama \u00e0 ce jour, nous ne faisons que commencer. Pr\u00e9sentation de Llama 3.1 Llama 3.1 405B est le premier mod\u00e8le disponible en libre acc\u00e8s qui rivalise avec les meilleurs mod\u00e8les d&rsquo;IA en termes de capacit\u00e9s de pointe dans les domaines de la connaissance g\u00e9n\u00e9rale, de l&rsquo;orientation, des math\u00e9matiques, de l&rsquo;utilisation d&rsquo;outils et de la traduction multilingue. Avec la sortie du mod\u00e8le 405B, nous sommes pr\u00eats \u00e0 stimuler l&rsquo;innovation, avec des possibilit\u00e9s de croissance et d&rsquo;exploration sans pr\u00e9c\u00e9dent. Nous pensons que la derni\u00e8re g\u00e9n\u00e9ration de Llama va donner naissance \u00e0 de nouvelles applications et \u00e0 de nouveaux paradigmes de mod\u00e9lisation, y compris la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques pour permettre l&rsquo;am\u00e9lioration et l&rsquo;entra\u00eenement de mod\u00e8les plus petits, ainsi que la distillation de mod\u00e8les &#8211; une capacit\u00e9 qui n&rsquo;a jamais \u00e9t\u00e9 atteinte \u00e0 cette \u00e9chelle dans le domaine de l&rsquo;open-source. Dans le cadre de la derni\u00e8re version, nous pr\u00e9sentons des versions am\u00e9lior\u00e9es des mod\u00e8les 8B et 70B. Ceux-ci sont multilingues et disposent d&rsquo;une longueur de de contexte nettement plus importante (128 Ko), d&rsquo;une utilisation d&rsquo;outils de pointe et de capacit\u00e9s de raisonnement globalement plus solides. Cela permet \u00e0 nos derniers mod\u00e8les de prendre en charge des cas d&rsquo;utilisation avanc\u00e9s, tels que le r\u00e9sum\u00e9 de textes longs, les agents conversationnels multilingues et les assistants de codage. Nous avons \u00e9galement modifi\u00e9 notre licence, ce qui permet aux d\u00e9veloppeurs d&rsquo;utiliser les r\u00e9sultats des mod\u00e8les Llama, y compris le 405B, pour am\u00e9liorer d&rsquo;autres mod\u00e8les. Fid\u00e8les \u00e0 notre engagement en faveur de l&rsquo;open-source, nous mettons d\u00e8s aujourd&rsquo;hui ces mod\u00e8les \u00e0 la disposition de la communaut\u00e9 pour t\u00e9l\u00e9chargement sur llama.meta.com et Hugging Face, ainsi que pour le d\u00e9veloppement imm\u00e9diat sur notre vaste \u00e9cosyst\u00e8me de plateformes partenaires. \u00c9valuations du mod\u00e8le\u00a0 Pour cette version, nous avons \u00e9valu\u00e9 les performances sur plus de 150 ensembles de donn\u00e9es de r\u00e9f\u00e9rence couvrant un large \u00e9ventail de langues. En outre, nous avons r\u00e9alis\u00e9 des \u00e9valuations humaines approfondies qui comparent Llama 3.1 \u00e0 des mod\u00e8les concurrents dans des sc\u00e9narios r\u00e9els. Notre \u00e9valuation exp\u00e9rimentale sugg\u00e8re que notre mod\u00e8le phare est comp\u00e9titif par rapport aux principaux mod\u00e8les de fondation sur une s\u00e9rie de t\u00e2ches, y compris GPT-4, GPT-4o, et Claude 3.5 Sonnet. En outre, nos petits mod\u00e8les sont comp\u00e9titifs par rapport aux mod\u00e8les closed et open-source qui ont un nombre similaire de param\u00e8tres. &nbsp; Architecture du mod\u00e8le L&rsquo;entra\u00eenement de Llama 3.1 405B sur plus de 15 trillions de tokens, notre plus grand mod\u00e8le \u00e0 ce jour, a constitu\u00e9 un d\u00e9fi majeur. Pour permettre des entra\u00eenements \u00e0 cette \u00e9chelle et obtenir les r\u00e9sultats que nous avons obtenus dans un d\u00e9lai raisonnable, nous avons consid\u00e9rablement optimis\u00e9 notre pile d&rsquo;entra\u00eenement compl\u00e8te et pouss\u00e9 l&rsquo;entra\u00eenement de notre mod\u00e8le sur plus de 16 000 GPU H100, faisant du 405B le premier mod\u00e8le Llama entra\u00een\u00e9 \u00e0 cette \u00e9chelle. Pour y rem\u00e9dier, nous avons fait des choix de conception qui visent \u00e0 maintenir le processus de d\u00e9veloppement du mod\u00e8le \u00e9volutif et simple. Nous avons opt\u00e9 pour une architecture de mod\u00e8le de transformateur standard de d\u00e9codeur uniquement avec des adaptations mineures, plut\u00f4t que pour un mod\u00e8le de m\u00e9lange d&rsquo;experts (MoE) afin de maximiser la stabilit\u00e9 de l&rsquo;apprentissage. Nous avons adopt\u00e9 une proc\u00e9dure it\u00e9rative de post-entra\u00eenement, o\u00f9 chaque tour utilise un fine-tuning supervis\u00e9 et une optimisation directe des pr\u00e9f\u00e9rences. Cela nous a permis de cr\u00e9er des donn\u00e9es synth\u00e9tiques de la plus haute qualit\u00e9 pour chaque cycle et d&rsquo;am\u00e9liorer les performances de chaque capacit\u00e9. Par rapport aux versions pr\u00e9c\u00e9dentes de Llama, nous avons am\u00e9lior\u00e9 \u00e0 la fois la quantit\u00e9 et la qualit\u00e9 des donn\u00e9es que nous utilisons pour la pr\u00e9- et la post-formation. Ces am\u00e9liorations comprennent le d\u00e9veloppement de pipelines de pr\u00e9-traitement et de curation plus minutieux pour les donn\u00e9es de pr\u00e9-entra\u00eenement, le d\u00e9veloppement d&rsquo;une assurance qualit\u00e9 plus rigoureuse et des approches de filtrage pour les donn\u00e9es de post-entra\u00eenement. Comme pr\u00e9vu par les lois d&rsquo;\u00e9chelle pour les mod\u00e8les de langage, notre nouveau mod\u00e8le phare surpasse les mod\u00e8les plus petits form\u00e9s \u00e0 l&rsquo;aide de la m\u00eame proc\u00e9dure. Nous avons \u00e9galement utilis\u00e9 le mod\u00e8le de param\u00e8tres 405B pour am\u00e9liorer la qualit\u00e9 post-entra\u00eenement de nos mod\u00e8les plus petits. Pour soutenir l&rsquo;inf\u00e9rence de production \u00e0 grande \u00e9chelle pour un mod\u00e8le \u00e0 l&rsquo;\u00e9chelle du 405B, nous avons quantifi\u00e9 nos mod\u00e8les de 16 bits (BF16) \u00e0 8 bits (FP8) num\u00e9riques, r\u00e9duisant efficacement les exigences de calcul n\u00e9cessaires et permettant au mod\u00e8le de fonctionner dans un seul n\u0153ud de serveur. Fine-tuning de l&rsquo;instruction et du chat Avec Llama 3.1 405B, nous nous sommes efforc\u00e9s d&rsquo;am\u00e9liorer l&rsquo;utilit\u00e9, la qualit\u00e9 et la capacit\u00e9 du mod\u00e8le \u00e0 suivre des instructions d\u00e9taill\u00e9es en r\u00e9ponse aux instructions de l&rsquo;utilisateur, tout en garantissant des niveaux \u00e9lev\u00e9s de s\u00e9curit\u00e9. Nos plus grands d\u00e9fis ont \u00e9t\u00e9 la prise en charge d&rsquo;un plus grand nombre de capacit\u00e9s, la fen\u00eatre contextuelle de 128K et l&rsquo;augmentation de la taille des mod\u00e8les. En post-entra\u00eenement, nous produisons des mod\u00e8les de chat finaux en effectuant plusieurs cycles d&rsquo;alignement sur le mod\u00e8le pr\u00e9-entra\u00een\u00e9. Chaque cycle implique un fine-tuning supervis\u00e9 (supervised fine-tuning &#8211; SFT), un \u00e9chantillonnage par rejet (Rejection Sampling &#8211; RS) et une optimisation directe des pr\u00e9f\u00e9rences (Direct Preference Optimization &#8211; DPO). Nous utilisons la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques pour produire la grande majorit\u00e9 de nos exemples de SFT, en it\u00e9rant plusieurs fois pour produire des donn\u00e9es synth\u00e9tiques de qualit\u00e9 de plus en plus \u00e9lev\u00e9e pour toutes les capacit\u00e9s. En outre, nous investissons dans de multiples techniques de traitement des donn\u00e9es pour filtrer ces donn\u00e9es synth\u00e9tiques afin d&rsquo;obtenir la meilleure qualit\u00e9 possible. Cela nous permet d&rsquo;adapter la quantit\u00e9 de donn\u00e9es fine-tun\u00e9es \u00e0 l&rsquo;ensemble des capacit\u00e9s. Nous \u00e9quilibrons soigneusement les donn\u00e9es afin de produire un mod\u00e8le de haute qualit\u00e9 pour toutes les capacit\u00e9s. Par exemple, nous maintenons la qualit\u00e9 de notre mod\u00e8le sur les benchmarks \u00e0 fen\u00eatre de contexte court, m\u00eame lorsque nous l&rsquo;\u00e9tendons \u00e0 un contexte de 128K. De m\u00eame, notre mod\u00e8le continue \u00e0 fournir des r\u00e9ponses maximalement utiles, m\u00eame lorsque nous ajoutons des mesures d&rsquo;att\u00e9nuation de la s\u00e9curit\u00e9. Le syst\u00e8me Llama Les mod\u00e8les Llama ont toujours \u00e9t\u00e9 con\u00e7us pour fonctionner dans le cadre d&rsquo;un syst\u00e8me global capable d&rsquo;orchestrer plusieurs composants, y compris l&rsquo;appel \u00e0 des outils externes. Notre vision est d&rsquo;aller au-del\u00e0 des mod\u00e8les de fondation pour donner aux d\u00e9veloppeurs l&rsquo;acc\u00e8s \u00e0 un syst\u00e8me plus large qui leur donne la flexibilit\u00e9 de concevoir et de cr\u00e9er des offres personnalis\u00e9es qui s&rsquo;alignent sur leur vision. Cette r\u00e9flexion a d\u00e9but\u00e9 l&rsquo;ann\u00e9e derni\u00e8re lorsque nous avons pr\u00e9sent\u00e9 pour la premi\u00e8re fois l&rsquo;incorporation de composants en dehors du LLM principal. Dans le cadre de nos efforts continus pour d\u00e9velopper l&rsquo;IA de mani\u00e8re responsable au-del\u00e0 de la couche de mod\u00e8le et pour aider les autres \u00e0 faire de m\u00eame, nous publions un syst\u00e8me de r\u00e9f\u00e9rence complet qui comprend plusieurs exemples d&rsquo;applications et de nouveaux composants tels que Llama Guard 3, un mod\u00e8le de s\u00e9curit\u00e9 multilingue, et Prompt Guard, un filtre d&rsquo;injection de prompts. Ces exemples d&rsquo;applications sont en open-source et peuvent \u00eatre utilis\u00e9s par la communaut\u00e9. La mise en \u0153uvre des composants de cette vision du syst\u00e8me Llama est encore fragment\u00e9e. C&rsquo;est pourquoi nous avons commenc\u00e9 \u00e0 travailler avec l&rsquo;industrie, les start-up et la communaut\u00e9 au sens large pour aider \u00e0 mieux d\u00e9finir les interfaces de ces composants. Pour ce faire, nous lan\u00e7ons un appel \u00e0 commentaires sur GitHub pour ce que nous appelons \u00ab Llama Stack \u00bb. Llama Stack est un ensemble d&rsquo;interfaces standardis\u00e9es et valid\u00e9es pour la construction de composants canoniques de la cha\u00eene d&rsquo;outils (fine-tuning, g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques) et d&rsquo;applications agentiques. Nous esp\u00e9rons que ces interfaces seront adopt\u00e9es par l&rsquo;ensemble de l&rsquo;\u00e9cosyst\u00e8me, ce qui devrait faciliter l&rsquo;interop\u00e9rabilit\u00e9. Nous sommes ouverts \u00e0 tout commentaire et \u00e0 toute am\u00e9lioration de la proposition. Nous sommes impatients de d\u00e9velopper l&rsquo;\u00e9cosyst\u00e8me autour de Llama et d&rsquo;abaisser les barri\u00e8res pour les d\u00e9veloppeurs et les fournisseurs de plateformes. L&rsquo;approche ouverte favorise l&rsquo;innovation Contrairement aux mod\u00e8les ferm\u00e9s, les poids des mod\u00e8les Llama peuvent \u00eatre t\u00e9l\u00e9charg\u00e9s. Les d\u00e9veloppeurs peuvent enti\u00e8rement personnaliser les mod\u00e8les en fonction de leurs besoins et de leurs applications, s&rsquo;entra\u00eener sur de nouveaux ensembles de donn\u00e9es et proc\u00e9der \u00e0 des ajustements suppl\u00e9mentaires. Cela permet \u00e0 l&rsquo;ensemble de la communaut\u00e9 des d\u00e9veloppeurs et au monde entier de mieux r\u00e9aliser la puissance de l&rsquo;IA g\u00e9n\u00e9rative. Les d\u00e9veloppeurs peuvent enti\u00e8rement personnaliser leurs applications et les ex\u00e9cuter dans n&rsquo;importe quel environnement, que ce soit sur sursite, dans le cloud ou m\u00eame localement sur un ordinateur portable, le tout sans partager de donn\u00e9es avec Meta. Bien que beaucoup puissent affirmer que les mod\u00e8les ferm\u00e9s sont plus rentables, les mod\u00e8les Llama offrent un co\u00fbt par token parmi les plus bas de l&rsquo;industrie, selon les tests effectu\u00e9s par Artificial Analysis. Comme l&rsquo;a fait remarquer Mark Zuckerberg, l&rsquo;open-source permettra \u00e0 un plus grand nombre de personnes dans le monde d&rsquo;avoir acc\u00e8s aux avantages et aux possibilit\u00e9s de l&rsquo;IA, de ne pas concentrer le pouvoir entre les mains d&rsquo;un petit nombre et de d\u00e9ployer la technologie de mani\u00e8re plus homog\u00e8ne et plus s\u00fbre dans la soci\u00e9t\u00e9. C&rsquo;est pourquoi nous continuons \u00e0 prendre des mesures pour que l&rsquo;IA en libre acc\u00e8s devienne la norme du secteur. Nous avons vu la communaut\u00e9 r\u00e9aliser des choses \u00e9tonnantes avec les mod\u00e8les Llama pr\u00e9c\u00e9dents, notamment un compagnon d&rsquo;\u00e9tude IA construit avec Llama et d\u00e9ploy\u00e9 dans WhatsApp et Messenger, un LLM adapt\u00e9 au domaine m\u00e9dical con\u00e7u pour aider \u00e0 guider la prise de d\u00e9cision clinique, et une start-up \u00e0 but non lucratif dans le domaine de la sant\u00e9 au Br\u00e9sil qui facilite l&rsquo;organisation et la communication par le syst\u00e8me de sant\u00e9 des informations relatives \u00e0 l&rsquo;hospitalisation des patients, tout cela en s\u00e9curisant les donn\u00e9es. Nous sommes impatients de voir ce qu&rsquo;ils construiront avec nos derniers mod\u00e8les gr\u00e2ce \u00e0 la puissance de l&rsquo;open-source. Construire avec Llama 3.1 405B Pour le d\u00e9veloppeur moyen, l&rsquo;utilisation d&rsquo;un mod\u00e8le \u00e0 l&rsquo;\u00e9chelle du 405B est un d\u00e9fi. Bien qu&rsquo;il s&rsquo;agisse d&rsquo;un mod\u00e8le incroyablement puissant, nous reconnaissons qu&rsquo;il n\u00e9cessite des ressources de calcul et une expertise consid\u00e9rables. Nous avons \u00e9chang\u00e9 avec la communaut\u00e9, et le d\u00e9veloppement de l&rsquo;IA g\u00e9n\u00e9rative ne se limite pas aux mod\u00e8les d&rsquo;incitation. Nous voulons permettre \u00e0 chacun de tirer le meilleur parti de la 405B, y compris : Inf\u00e9rence en temps r\u00e9el et par lots Fine-tuning supervis\u00e9 \u00c9valuation de votre mod\u00e8le pour votre application sp\u00e9cifique Pr\u00e9-entra\u00eenement continu G\u00e9n\u00e9ration augment\u00e9e\u00a0 de r\u00e9cup\u00e9ration (RAG) Appel de fonction G\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques C&rsquo;est l\u00e0 que l&rsquo;\u00e9cosyst\u00e8me Llama peut vous aider. D\u00e8s le premier jour, les d\u00e9veloppeurs peuvent profiter de toutes les capacit\u00e9s avanc\u00e9es du mod\u00e8le 405B et commencer \u00e0 construire imm\u00e9diatement. Les d\u00e9veloppeurs peuvent \u00e9galement explorer des flux de travail avanc\u00e9s tels que la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques faciles \u00e0 utiliser, suivre des instructions cl\u00e9s en main pour la distillation de mod\u00e8les et activer un RAG transparent avec des solutions de partenaires, notamment AWS, NVIDIA et Databricks. En outre, Groq a optimis\u00e9 l&rsquo;inf\u00e9rence \u00e0 faible latence pour les d\u00e9ploiements dans le cloud, Dell r\u00e9alisant des optimisations similaires pour les syst\u00e8mes sur site. Nous avons travaill\u00e9 avec des projets communautaires cl\u00e9s tels que vLLM, TensorRT et PyTorch pour int\u00e9grer le support d\u00e8s le premier jour afin de s&rsquo;assurer que la communaut\u00e9 est pr\u00eate pour le d\u00e9ploiement en production. Nous esp\u00e9rons que notre publication du 405B stimulera \u00e9galement l&rsquo;innovation au sein de la communaut\u00e9 \u00e9largie afin de faciliter l&rsquo;inf\u00e9rence et le fine-tuning des mod\u00e8les de cette \u00e9chelle et de permettre la prochaine vague de recherche sur la distillation de mod\u00e8les. Testez la collection de mod\u00e8les Llama 3.1 d\u00e8s aujourd&rsquo;hui Nous sommes impatients de voir ce que la communaut\u00e9 fera de ce travail. Il y a tellement de potentiel pour construire de nouvelles exp\u00e9riences utiles en utilisant le multilinguisme et l&rsquo;augmentation de la longueur de la fen\u00eatre de contexte. Avec la pile Llama et les nouveaux outils de s\u00e9curit\u00e9, nous sommes impatients de continuer \u00e0 construire avec la communaut\u00e9 open-source de mani\u00e8re responsable. Avant de publier un mod\u00e8le, nous nous effor\u00e7ons d&rsquo;identifier, d&rsquo;\u00e9valuer et d&rsquo;att\u00e9nuer les risques potentiels par le biais de plusieurs mesures, notamment des exercices de d\u00e9couverte des risques avant le d\u00e9ploiement, par l&rsquo;interm\u00e9diaire d&rsquo;une \u00e9quipe d&rsquo;experts et d&rsquo;une mise au point de la s\u00e9curit\u00e9. Par exemple, nous menons des exercices intensifs avec des experts externes et internes pour tester les mod\u00e8les et trouver des fa\u00e7ons inattendues de les utiliser. (Pour en savoir plus sur la fa\u00e7on dont nous d\u00e9veloppons notre collection de mod\u00e8les Llama 3.1 de mani\u00e8re responsable, lisez cet article de blog). Bien qu&rsquo;il s&rsquo;agisse de notre plus grand mod\u00e8le \u00e0 ce jour, nous pensons qu&rsquo;il y a encore beaucoup de choses \u00e0 explorer \u00e0 l&rsquo;avenir, notamment des tailles plus adapt\u00e9es aux appareils, des modalit\u00e9s suppl\u00e9mentaires et davantage d&rsquo;investissements au niveau de la plateforme d&rsquo;agents. Comme toujours, nous sommes impatients de d\u00e9couvrir les produits et les exp\u00e9riences extraordinaires que la communaut\u00e9 va cr\u00e9er avec ces mod\u00e8les. Ce travail a \u00e9t\u00e9 soutenu par nos partenaires de la communaut\u00e9 de l&rsquo;IA. Nous tenons \u00e0 les remercier (par ordre alphab\u00e9tique) : Accenture, Amazon Web Services, AMD, Anyscale, CloudFlare, Databricks, Dell, Deloitte, Fireworks.ai, Google Cloud, Groq, Hugging Face, IBM WatsonX, Infosys, Intel, Kaggle, Microsoft Azure, NVIDIA DGX Cloud, OctoAI, Oracle Cloud, PwC, Replicate, Sarvam AI, Scale.AI, SNCF, Snowflake, et UC Berkeley &#8211; vLLM Project.","protected":false},"author":164097090,"featured_media":23941,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[243897990,243897944],"tags":[134004,243898386,243898193,243898439,243898440,243898438],"class_list":["post-23940","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-actualites","category-intelligence-artificielle","tag-intelligence-artificielle","tag-llama","tag-meta","tag-modeles-open-source","tag-modelisation","tag-open-source"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.2 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Lancement de Llama 3.1 : nos mod\u00e8les les plus performants \u00e0 ce jour | \u00c0 propos de Meta<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Lancement de Llama 3.1 : nos mod\u00e8les les plus performants \u00e0 ce jour | \u00c0 propos de Meta\" \/>\n<meta property=\"og:description\" content=\"Les nouveaut\u00e9s :\u00a0 Meta s&rsquo;engage \u00e0 rendre l&rsquo;IA accessible \u00e0 tous. Mark Zuckerberg explique, dans cette lettre, pourquoi l&rsquo;open-source est b\u00e9n\u00e9fique pour les d\u00e9veloppeurs, pour Meta et pour le monde. En mettant l&rsquo;intelligence ouverte \u00e0 la port\u00e9e de tous, nos derniers mod\u00e8les \u00e9tendent la longueur du contexte \u00e0 128K, ajoutent la prise en charge de huit langues et incluent Llama 3.1 405B, le premier mod\u00e8le AI open-source \u201cfrontier-level\u201d.\u00a0 Llama 3.1 405B est unique en son genre, avec une flexibilit\u00e9 in\u00e9gal\u00e9e, un contr\u00f4le et des capacit\u00e9s de pointe qui rivalisent avec les meilleurs mod\u00e8les ferm\u00e9s. Notre nouveau mod\u00e8le permettra \u00e0 la communaut\u00e9 de d\u00e9bloquer de nouveaux flux de travail, tels que la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques et la distillation de mod\u00e8les. Nous continuons \u00e0 d\u00e9velopper Llama pour en faire un syst\u00e8me fournissant davantage de composants qui fonctionnent avec le mod\u00e8le, y compris un syst\u00e8me de r\u00e9f\u00e9rence. Nous voulons donner aux d\u00e9veloppeurs les outils n\u00e9cessaires pour cr\u00e9er leurs propres agents personnalis\u00e9s et de nouveaux types de comportements agentiques. Nous renfor\u00e7ons cela avec de nouveaux outils de s\u00e9curit\u00e9 et de s\u00fbret\u00e9, y compris Llama Guard 3 et Prompt Guard, pour aider \u00e0 construire de mani\u00e8re responsable. Nous lan\u00e7ons \u00e9galement un appel \u00e0 commentaires sur l&rsquo;API Llama Stack, une interface standard qui, nous l&rsquo;esp\u00e9rons, permettra aux projets tiers d&rsquo;exploiter plus facilement les mod\u00e8les Llama. L&rsquo;\u00e9cosyst\u00e8me est pr\u00eat \u00e0 \u00eatre lanc\u00e9 avec plus de 25 partenaires, dont AWS, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud et SNCF Gares&amp;connexions, qui proposeront des services d\u00e8s le premier jour. SNCF Gares &amp; Connexions figure parmi les premiers partenaires \u00e0 exp\u00e9rimenter llama3.1. Dans la continuit\u00e9 du dispositif autour de la connectivit\u00e9 pr\u00e9sent\u00e9 \u00e0 Vivatech et STATION F, SNCF Gares &amp; Connexions poursuit des exp\u00e9rimentations qui int\u00e8grent de nouvelles fonctionnalit\u00e9s dont le multilinguisme au service de l\u2019information et de l\u2019orientation des voyageurs en gare en fran\u00e7ais, anglais, allemand, espagnol, italien et portugais. Pour renforcer le dispositif, une exp\u00e9rience rapide et personnalis\u00e9e est accessible \u00e9galement via un chatbot WhatsApp, qui permet d&rsquo;apporter des informations en temps r\u00e9el aux voyageurs par exemple sur leurs d\u00e9placements en gare. Jusqu&rsquo;\u00e0 aujourd&rsquo;hui, les grands mod\u00e8les de langage open-source \u00e9taient g\u00e9n\u00e9ralement en retard par rapport \u00e0 leurs homologues closed-source en termes de capacit\u00e9s et de performances. Aujourd&rsquo;hui, nous entrons dans une nouvelle \u00e8re o\u00f9 l&rsquo;open-source ouvre la voie. Nous d\u00e9voilons Llama 3.1 405B, que nous consid\u00e9rons comme le mod\u00e8le de fondation le plus grand et le plus performant au monde, disponible en libre acc\u00e8s. Avec plus de 300 millions de t\u00e9l\u00e9chargements de toutes les versions de Llama \u00e0 ce jour, nous ne faisons que commencer. Pr\u00e9sentation de Llama 3.1 Llama 3.1 405B est le premier mod\u00e8le disponible en libre acc\u00e8s qui rivalise avec les meilleurs mod\u00e8les d&rsquo;IA en termes de capacit\u00e9s de pointe dans les domaines de la connaissance g\u00e9n\u00e9rale, de l&rsquo;orientation, des math\u00e9matiques, de l&rsquo;utilisation d&rsquo;outils et de la traduction multilingue. Avec la sortie du mod\u00e8le 405B, nous sommes pr\u00eats \u00e0 stimuler l&rsquo;innovation, avec des possibilit\u00e9s de croissance et d&rsquo;exploration sans pr\u00e9c\u00e9dent. Nous pensons que la derni\u00e8re g\u00e9n\u00e9ration de Llama va donner naissance \u00e0 de nouvelles applications et \u00e0 de nouveaux paradigmes de mod\u00e9lisation, y compris la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques pour permettre l&rsquo;am\u00e9lioration et l&rsquo;entra\u00eenement de mod\u00e8les plus petits, ainsi que la distillation de mod\u00e8les &#8211; une capacit\u00e9 qui n&rsquo;a jamais \u00e9t\u00e9 atteinte \u00e0 cette \u00e9chelle dans le domaine de l&rsquo;open-source. Dans le cadre de la derni\u00e8re version, nous pr\u00e9sentons des versions am\u00e9lior\u00e9es des mod\u00e8les 8B et 70B. Ceux-ci sont multilingues et disposent d&rsquo;une longueur de de contexte nettement plus importante (128 Ko), d&rsquo;une utilisation d&rsquo;outils de pointe et de capacit\u00e9s de raisonnement globalement plus solides. Cela permet \u00e0 nos derniers mod\u00e8les de prendre en charge des cas d&rsquo;utilisation avanc\u00e9s, tels que le r\u00e9sum\u00e9 de textes longs, les agents conversationnels multilingues et les assistants de codage. Nous avons \u00e9galement modifi\u00e9 notre licence, ce qui permet aux d\u00e9veloppeurs d&rsquo;utiliser les r\u00e9sultats des mod\u00e8les Llama, y compris le 405B, pour am\u00e9liorer d&rsquo;autres mod\u00e8les. Fid\u00e8les \u00e0 notre engagement en faveur de l&rsquo;open-source, nous mettons d\u00e8s aujourd&rsquo;hui ces mod\u00e8les \u00e0 la disposition de la communaut\u00e9 pour t\u00e9l\u00e9chargement sur llama.meta.com et Hugging Face, ainsi que pour le d\u00e9veloppement imm\u00e9diat sur notre vaste \u00e9cosyst\u00e8me de plateformes partenaires. \u00c9valuations du mod\u00e8le\u00a0 Pour cette version, nous avons \u00e9valu\u00e9 les performances sur plus de 150 ensembles de donn\u00e9es de r\u00e9f\u00e9rence couvrant un large \u00e9ventail de langues. En outre, nous avons r\u00e9alis\u00e9 des \u00e9valuations humaines approfondies qui comparent Llama 3.1 \u00e0 des mod\u00e8les concurrents dans des sc\u00e9narios r\u00e9els. Notre \u00e9valuation exp\u00e9rimentale sugg\u00e8re que notre mod\u00e8le phare est comp\u00e9titif par rapport aux principaux mod\u00e8les de fondation sur une s\u00e9rie de t\u00e2ches, y compris GPT-4, GPT-4o, et Claude 3.5 Sonnet. En outre, nos petits mod\u00e8les sont comp\u00e9titifs par rapport aux mod\u00e8les closed et open-source qui ont un nombre similaire de param\u00e8tres. &nbsp; Architecture du mod\u00e8le L&rsquo;entra\u00eenement de Llama 3.1 405B sur plus de 15 trillions de tokens, notre plus grand mod\u00e8le \u00e0 ce jour, a constitu\u00e9 un d\u00e9fi majeur. Pour permettre des entra\u00eenements \u00e0 cette \u00e9chelle et obtenir les r\u00e9sultats que nous avons obtenus dans un d\u00e9lai raisonnable, nous avons consid\u00e9rablement optimis\u00e9 notre pile d&rsquo;entra\u00eenement compl\u00e8te et pouss\u00e9 l&rsquo;entra\u00eenement de notre mod\u00e8le sur plus de 16 000 GPU H100, faisant du 405B le premier mod\u00e8le Llama entra\u00een\u00e9 \u00e0 cette \u00e9chelle. Pour y rem\u00e9dier, nous avons fait des choix de conception qui visent \u00e0 maintenir le processus de d\u00e9veloppement du mod\u00e8le \u00e9volutif et simple. Nous avons opt\u00e9 pour une architecture de mod\u00e8le de transformateur standard de d\u00e9codeur uniquement avec des adaptations mineures, plut\u00f4t que pour un mod\u00e8le de m\u00e9lange d&rsquo;experts (MoE) afin de maximiser la stabilit\u00e9 de l&rsquo;apprentissage. Nous avons adopt\u00e9 une proc\u00e9dure it\u00e9rative de post-entra\u00eenement, o\u00f9 chaque tour utilise un fine-tuning supervis\u00e9 et une optimisation directe des pr\u00e9f\u00e9rences. Cela nous a permis de cr\u00e9er des donn\u00e9es synth\u00e9tiques de la plus haute qualit\u00e9 pour chaque cycle et d&rsquo;am\u00e9liorer les performances de chaque capacit\u00e9. Par rapport aux versions pr\u00e9c\u00e9dentes de Llama, nous avons am\u00e9lior\u00e9 \u00e0 la fois la quantit\u00e9 et la qualit\u00e9 des donn\u00e9es que nous utilisons pour la pr\u00e9- et la post-formation. Ces am\u00e9liorations comprennent le d\u00e9veloppement de pipelines de pr\u00e9-traitement et de curation plus minutieux pour les donn\u00e9es de pr\u00e9-entra\u00eenement, le d\u00e9veloppement d&rsquo;une assurance qualit\u00e9 plus rigoureuse et des approches de filtrage pour les donn\u00e9es de post-entra\u00eenement. Comme pr\u00e9vu par les lois d&rsquo;\u00e9chelle pour les mod\u00e8les de langage, notre nouveau mod\u00e8le phare surpasse les mod\u00e8les plus petits form\u00e9s \u00e0 l&rsquo;aide de la m\u00eame proc\u00e9dure. Nous avons \u00e9galement utilis\u00e9 le mod\u00e8le de param\u00e8tres 405B pour am\u00e9liorer la qualit\u00e9 post-entra\u00eenement de nos mod\u00e8les plus petits. Pour soutenir l&rsquo;inf\u00e9rence de production \u00e0 grande \u00e9chelle pour un mod\u00e8le \u00e0 l&rsquo;\u00e9chelle du 405B, nous avons quantifi\u00e9 nos mod\u00e8les de 16 bits (BF16) \u00e0 8 bits (FP8) num\u00e9riques, r\u00e9duisant efficacement les exigences de calcul n\u00e9cessaires et permettant au mod\u00e8le de fonctionner dans un seul n\u0153ud de serveur. Fine-tuning de l&rsquo;instruction et du chat Avec Llama 3.1 405B, nous nous sommes efforc\u00e9s d&rsquo;am\u00e9liorer l&rsquo;utilit\u00e9, la qualit\u00e9 et la capacit\u00e9 du mod\u00e8le \u00e0 suivre des instructions d\u00e9taill\u00e9es en r\u00e9ponse aux instructions de l&rsquo;utilisateur, tout en garantissant des niveaux \u00e9lev\u00e9s de s\u00e9curit\u00e9. Nos plus grands d\u00e9fis ont \u00e9t\u00e9 la prise en charge d&rsquo;un plus grand nombre de capacit\u00e9s, la fen\u00eatre contextuelle de 128K et l&rsquo;augmentation de la taille des mod\u00e8les. En post-entra\u00eenement, nous produisons des mod\u00e8les de chat finaux en effectuant plusieurs cycles d&rsquo;alignement sur le mod\u00e8le pr\u00e9-entra\u00een\u00e9. Chaque cycle implique un fine-tuning supervis\u00e9 (supervised fine-tuning &#8211; SFT), un \u00e9chantillonnage par rejet (Rejection Sampling &#8211; RS) et une optimisation directe des pr\u00e9f\u00e9rences (Direct Preference Optimization &#8211; DPO). Nous utilisons la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques pour produire la grande majorit\u00e9 de nos exemples de SFT, en it\u00e9rant plusieurs fois pour produire des donn\u00e9es synth\u00e9tiques de qualit\u00e9 de plus en plus \u00e9lev\u00e9e pour toutes les capacit\u00e9s. En outre, nous investissons dans de multiples techniques de traitement des donn\u00e9es pour filtrer ces donn\u00e9es synth\u00e9tiques afin d&rsquo;obtenir la meilleure qualit\u00e9 possible. Cela nous permet d&rsquo;adapter la quantit\u00e9 de donn\u00e9es fine-tun\u00e9es \u00e0 l&rsquo;ensemble des capacit\u00e9s. Nous \u00e9quilibrons soigneusement les donn\u00e9es afin de produire un mod\u00e8le de haute qualit\u00e9 pour toutes les capacit\u00e9s. Par exemple, nous maintenons la qualit\u00e9 de notre mod\u00e8le sur les benchmarks \u00e0 fen\u00eatre de contexte court, m\u00eame lorsque nous l&rsquo;\u00e9tendons \u00e0 un contexte de 128K. De m\u00eame, notre mod\u00e8le continue \u00e0 fournir des r\u00e9ponses maximalement utiles, m\u00eame lorsque nous ajoutons des mesures d&rsquo;att\u00e9nuation de la s\u00e9curit\u00e9. Le syst\u00e8me Llama Les mod\u00e8les Llama ont toujours \u00e9t\u00e9 con\u00e7us pour fonctionner dans le cadre d&rsquo;un syst\u00e8me global capable d&rsquo;orchestrer plusieurs composants, y compris l&rsquo;appel \u00e0 des outils externes. Notre vision est d&rsquo;aller au-del\u00e0 des mod\u00e8les de fondation pour donner aux d\u00e9veloppeurs l&rsquo;acc\u00e8s \u00e0 un syst\u00e8me plus large qui leur donne la flexibilit\u00e9 de concevoir et de cr\u00e9er des offres personnalis\u00e9es qui s&rsquo;alignent sur leur vision. Cette r\u00e9flexion a d\u00e9but\u00e9 l&rsquo;ann\u00e9e derni\u00e8re lorsque nous avons pr\u00e9sent\u00e9 pour la premi\u00e8re fois l&rsquo;incorporation de composants en dehors du LLM principal. Dans le cadre de nos efforts continus pour d\u00e9velopper l&rsquo;IA de mani\u00e8re responsable au-del\u00e0 de la couche de mod\u00e8le et pour aider les autres \u00e0 faire de m\u00eame, nous publions un syst\u00e8me de r\u00e9f\u00e9rence complet qui comprend plusieurs exemples d&rsquo;applications et de nouveaux composants tels que Llama Guard 3, un mod\u00e8le de s\u00e9curit\u00e9 multilingue, et Prompt Guard, un filtre d&rsquo;injection de prompts. Ces exemples d&rsquo;applications sont en open-source et peuvent \u00eatre utilis\u00e9s par la communaut\u00e9. La mise en \u0153uvre des composants de cette vision du syst\u00e8me Llama est encore fragment\u00e9e. C&rsquo;est pourquoi nous avons commenc\u00e9 \u00e0 travailler avec l&rsquo;industrie, les start-up et la communaut\u00e9 au sens large pour aider \u00e0 mieux d\u00e9finir les interfaces de ces composants. Pour ce faire, nous lan\u00e7ons un appel \u00e0 commentaires sur GitHub pour ce que nous appelons \u00ab Llama Stack \u00bb. Llama Stack est un ensemble d&rsquo;interfaces standardis\u00e9es et valid\u00e9es pour la construction de composants canoniques de la cha\u00eene d&rsquo;outils (fine-tuning, g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques) et d&rsquo;applications agentiques. Nous esp\u00e9rons que ces interfaces seront adopt\u00e9es par l&rsquo;ensemble de l&rsquo;\u00e9cosyst\u00e8me, ce qui devrait faciliter l&rsquo;interop\u00e9rabilit\u00e9. Nous sommes ouverts \u00e0 tout commentaire et \u00e0 toute am\u00e9lioration de la proposition. Nous sommes impatients de d\u00e9velopper l&rsquo;\u00e9cosyst\u00e8me autour de Llama et d&rsquo;abaisser les barri\u00e8res pour les d\u00e9veloppeurs et les fournisseurs de plateformes. L&rsquo;approche ouverte favorise l&rsquo;innovation Contrairement aux mod\u00e8les ferm\u00e9s, les poids des mod\u00e8les Llama peuvent \u00eatre t\u00e9l\u00e9charg\u00e9s. Les d\u00e9veloppeurs peuvent enti\u00e8rement personnaliser les mod\u00e8les en fonction de leurs besoins et de leurs applications, s&rsquo;entra\u00eener sur de nouveaux ensembles de donn\u00e9es et proc\u00e9der \u00e0 des ajustements suppl\u00e9mentaires. Cela permet \u00e0 l&rsquo;ensemble de la communaut\u00e9 des d\u00e9veloppeurs et au monde entier de mieux r\u00e9aliser la puissance de l&rsquo;IA g\u00e9n\u00e9rative. Les d\u00e9veloppeurs peuvent enti\u00e8rement personnaliser leurs applications et les ex\u00e9cuter dans n&rsquo;importe quel environnement, que ce soit sur sursite, dans le cloud ou m\u00eame localement sur un ordinateur portable, le tout sans partager de donn\u00e9es avec Meta. Bien que beaucoup puissent affirmer que les mod\u00e8les ferm\u00e9s sont plus rentables, les mod\u00e8les Llama offrent un co\u00fbt par token parmi les plus bas de l&rsquo;industrie, selon les tests effectu\u00e9s par Artificial Analysis. Comme l&rsquo;a fait remarquer Mark Zuckerberg, l&rsquo;open-source permettra \u00e0 un plus grand nombre de personnes dans le monde d&rsquo;avoir acc\u00e8s aux avantages et aux possibilit\u00e9s de l&rsquo;IA, de ne pas concentrer le pouvoir entre les mains d&rsquo;un petit nombre et de d\u00e9ployer la technologie de mani\u00e8re plus homog\u00e8ne et plus s\u00fbre dans la soci\u00e9t\u00e9. C&rsquo;est pourquoi nous continuons \u00e0 prendre des mesures pour que l&rsquo;IA en libre acc\u00e8s devienne la norme du secteur. Nous avons vu la communaut\u00e9 r\u00e9aliser des choses \u00e9tonnantes avec les mod\u00e8les Llama pr\u00e9c\u00e9dents, notamment un compagnon d&rsquo;\u00e9tude IA construit avec Llama et d\u00e9ploy\u00e9 dans WhatsApp et Messenger, un LLM adapt\u00e9 au domaine m\u00e9dical con\u00e7u pour aider \u00e0 guider la prise de d\u00e9cision clinique, et une start-up \u00e0 but non lucratif dans le domaine de la sant\u00e9 au Br\u00e9sil qui facilite l&rsquo;organisation et la communication par le syst\u00e8me de sant\u00e9 des informations relatives \u00e0 l&rsquo;hospitalisation des patients, tout cela en s\u00e9curisant les donn\u00e9es. Nous sommes impatients de voir ce qu&rsquo;ils construiront avec nos derniers mod\u00e8les gr\u00e2ce \u00e0 la puissance de l&rsquo;open-source. Construire avec Llama 3.1 405B Pour le d\u00e9veloppeur moyen, l&rsquo;utilisation d&rsquo;un mod\u00e8le \u00e0 l&rsquo;\u00e9chelle du 405B est un d\u00e9fi. Bien qu&rsquo;il s&rsquo;agisse d&rsquo;un mod\u00e8le incroyablement puissant, nous reconnaissons qu&rsquo;il n\u00e9cessite des ressources de calcul et une expertise consid\u00e9rables. Nous avons \u00e9chang\u00e9 avec la communaut\u00e9, et le d\u00e9veloppement de l&rsquo;IA g\u00e9n\u00e9rative ne se limite pas aux mod\u00e8les d&rsquo;incitation. Nous voulons permettre \u00e0 chacun de tirer le meilleur parti de la 405B, y compris : Inf\u00e9rence en temps r\u00e9el et par lots Fine-tuning supervis\u00e9 \u00c9valuation de votre mod\u00e8le pour votre application sp\u00e9cifique Pr\u00e9-entra\u00eenement continu G\u00e9n\u00e9ration augment\u00e9e\u00a0 de r\u00e9cup\u00e9ration (RAG) Appel de fonction G\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques C&rsquo;est l\u00e0 que l&rsquo;\u00e9cosyst\u00e8me Llama peut vous aider. D\u00e8s le premier jour, les d\u00e9veloppeurs peuvent profiter de toutes les capacit\u00e9s avanc\u00e9es du mod\u00e8le 405B et commencer \u00e0 construire imm\u00e9diatement. Les d\u00e9veloppeurs peuvent \u00e9galement explorer des flux de travail avanc\u00e9s tels que la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques faciles \u00e0 utiliser, suivre des instructions cl\u00e9s en main pour la distillation de mod\u00e8les et activer un RAG transparent avec des solutions de partenaires, notamment AWS, NVIDIA et Databricks. En outre, Groq a optimis\u00e9 l&rsquo;inf\u00e9rence \u00e0 faible latence pour les d\u00e9ploiements dans le cloud, Dell r\u00e9alisant des optimisations similaires pour les syst\u00e8mes sur site. Nous avons travaill\u00e9 avec des projets communautaires cl\u00e9s tels que vLLM, TensorRT et PyTorch pour int\u00e9grer le support d\u00e8s le premier jour afin de s&rsquo;assurer que la communaut\u00e9 est pr\u00eate pour le d\u00e9ploiement en production. Nous esp\u00e9rons que notre publication du 405B stimulera \u00e9galement l&rsquo;innovation au sein de la communaut\u00e9 \u00e9largie afin de faciliter l&rsquo;inf\u00e9rence et le fine-tuning des mod\u00e8les de cette \u00e9chelle et de permettre la prochaine vague de recherche sur la distillation de mod\u00e8les. Testez la collection de mod\u00e8les Llama 3.1 d\u00e8s aujourd&rsquo;hui Nous sommes impatients de voir ce que la communaut\u00e9 fera de ce travail. Il y a tellement de potentiel pour construire de nouvelles exp\u00e9riences utiles en utilisant le multilinguisme et l&rsquo;augmentation de la longueur de la fen\u00eatre de contexte. Avec la pile Llama et les nouveaux outils de s\u00e9curit\u00e9, nous sommes impatients de continuer \u00e0 construire avec la communaut\u00e9 open-source de mani\u00e8re responsable. Avant de publier un mod\u00e8le, nous nous effor\u00e7ons d&rsquo;identifier, d&rsquo;\u00e9valuer et d&rsquo;att\u00e9nuer les risques potentiels par le biais de plusieurs mesures, notamment des exercices de d\u00e9couverte des risques avant le d\u00e9ploiement, par l&rsquo;interm\u00e9diaire d&rsquo;une \u00e9quipe d&rsquo;experts et d&rsquo;une mise au point de la s\u00e9curit\u00e9. Par exemple, nous menons des exercices intensifs avec des experts externes et internes pour tester les mod\u00e8les et trouver des fa\u00e7ons inattendues de les utiliser. (Pour en savoir plus sur la fa\u00e7on dont nous d\u00e9veloppons notre collection de mod\u00e8les Llama 3.1 de mani\u00e8re responsable, lisez cet article de blog). Bien qu&rsquo;il s&rsquo;agisse de notre plus grand mod\u00e8le \u00e0 ce jour, nous pensons qu&rsquo;il y a encore beaucoup de choses \u00e0 explorer \u00e0 l&rsquo;avenir, notamment des tailles plus adapt\u00e9es aux appareils, des modalit\u00e9s suppl\u00e9mentaires et davantage d&rsquo;investissements au niveau de la plateforme d&rsquo;agents. Comme toujours, nous sommes impatients de d\u00e9couvrir les produits et les exp\u00e9riences extraordinaires que la communaut\u00e9 va cr\u00e9er avec ces mod\u00e8les. Ce travail a \u00e9t\u00e9 soutenu par nos partenaires de la communaut\u00e9 de l&rsquo;IA. Nous tenons \u00e0 les remercier (par ordre alphab\u00e9tique) : Accenture, Amazon Web Services, AMD, Anyscale, CloudFlare, Databricks, Dell, Deloitte, Fireworks.ai, Google Cloud, Groq, Hugging Face, IBM WatsonX, Infosys, Intel, Kaggle, Microsoft Azure, NVIDIA DGX Cloud, OctoAI, Oracle Cloud, PwC, Replicate, Sarvam AI, Scale.AI, SNCF, Snowflake, et UC Berkeley &#8211; vLLM Project.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/\" \/>\n<meta property=\"og:site_name\" content=\"\u00c0 propos de Meta\" \/>\n<meta property=\"article:published_time\" content=\"2024-07-23T15:19:06+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2024-07-23T15:38:03+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/llama3.png?fit=602%2C339\" \/>\n\t<meta property=\"og:image:width\" content=\"602\" \/>\n\t<meta property=\"og:image:height\" content=\"339\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"hopscotch\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@METAfrance\" \/>\n<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data1\" content=\"Meta\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data2\" content=\"13 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/\"},\"author\":\"Facebook company\",\"headline\":\"Lancement de Llama 3.1 : nos mod\u00e8les les plus performants \u00e0 ce jour\",\"datePublished\":\"2024-07-23T15:19:06+00:00\",\"dateModified\":\"2024-07-23T15:38:03+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/\"},\"wordCount\":3058,\"publisher\":{\"@id\":\"https:\/\/about.fb.com\/fr\/#organization\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/llama3.png?fit=602%2C339\",\"keywords\":[\"intelligence artificielle\",\"Llama\",\"Meta\",\"mod\u00e8les open-source\",\"mod\u00e9lisation\",\"open source\"],\"articleSection\":[\"Actualit\u00e9s\",\"Intelligence Artificielle\"],\"inLanguage\":\"fr-FR\"},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/\",\"url\":\"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/\",\"name\":\"Lancement de Llama 3.1 : nos mod\u00e8les les plus performants \u00e0 ce jour | \u00c0 propos de Meta\",\"isPartOf\":{\"@id\":\"https:\/\/about.fb.com\/fr\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/llama3.png?fit=602%2C339\",\"datePublished\":\"2024-07-23T15:19:06+00:00\",\"dateModified\":\"2024-07-23T15:38:03+00:00\",\"breadcrumb\":{\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/#breadcrumb\"},\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/\"]}],\"author\":\"\u00c0 propos de Meta\"},{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/#primaryimage\",\"url\":\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/llama3.png?fit=602%2C339\",\"contentUrl\":\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/llama3.png?fit=602%2C339\",\"width\":602,\"height\":339},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/about.fb.com\/fr\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Lancement de Llama 3.1 : nos mod\u00e8les les plus performants \u00e0 ce jour\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/about.fb.com\/fr\/#website\",\"url\":\"https:\/\/about.fb.com\/news\/\",\"name\":\"\u00c0 propos de Meta\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\/\/about.fb.com\/fr\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/about.fb.com\/fr\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"fr-FR\",\"alternateName\":[\"Meta Newsroom\",\"Meta\"]},{\"@type\":\"Organization\",\"@id\":\"https:\/\/about.fb.com\/fr\/#organization\",\"name\":\"Meta\",\"url\":\"https:\/\/about.fb.com\/fr\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/about.fb.com\/fr\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500\",\"contentUrl\":\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500\",\"width\":8000,\"height\":4500,\"caption\":\"Meta\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/fr\/#\/schema\/logo\/image\/\"}}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Lancement de Llama 3.1 : nos mod\u00e8les les plus performants \u00e0 ce jour | \u00c0 propos de Meta","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/","og_locale":"fr_FR","og_type":"article","og_title":"Lancement de Llama 3.1 : nos mod\u00e8les les plus performants \u00e0 ce jour | \u00c0 propos de Meta","og_description":"Les nouveaut\u00e9s :\u00a0 Meta s&rsquo;engage \u00e0 rendre l&rsquo;IA accessible \u00e0 tous. Mark Zuckerberg explique, dans cette lettre, pourquoi l&rsquo;open-source est b\u00e9n\u00e9fique pour les d\u00e9veloppeurs, pour Meta et pour le monde. En mettant l&rsquo;intelligence ouverte \u00e0 la port\u00e9e de tous, nos derniers mod\u00e8les \u00e9tendent la longueur du contexte \u00e0 128K, ajoutent la prise en charge de huit langues et incluent Llama 3.1 405B, le premier mod\u00e8le AI open-source \u201cfrontier-level\u201d.\u00a0 Llama 3.1 405B est unique en son genre, avec une flexibilit\u00e9 in\u00e9gal\u00e9e, un contr\u00f4le et des capacit\u00e9s de pointe qui rivalisent avec les meilleurs mod\u00e8les ferm\u00e9s. Notre nouveau mod\u00e8le permettra \u00e0 la communaut\u00e9 de d\u00e9bloquer de nouveaux flux de travail, tels que la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques et la distillation de mod\u00e8les. Nous continuons \u00e0 d\u00e9velopper Llama pour en faire un syst\u00e8me fournissant davantage de composants qui fonctionnent avec le mod\u00e8le, y compris un syst\u00e8me de r\u00e9f\u00e9rence. Nous voulons donner aux d\u00e9veloppeurs les outils n\u00e9cessaires pour cr\u00e9er leurs propres agents personnalis\u00e9s et de nouveaux types de comportements agentiques. Nous renfor\u00e7ons cela avec de nouveaux outils de s\u00e9curit\u00e9 et de s\u00fbret\u00e9, y compris Llama Guard 3 et Prompt Guard, pour aider \u00e0 construire de mani\u00e8re responsable. Nous lan\u00e7ons \u00e9galement un appel \u00e0 commentaires sur l&rsquo;API Llama Stack, une interface standard qui, nous l&rsquo;esp\u00e9rons, permettra aux projets tiers d&rsquo;exploiter plus facilement les mod\u00e8les Llama. L&rsquo;\u00e9cosyst\u00e8me est pr\u00eat \u00e0 \u00eatre lanc\u00e9 avec plus de 25 partenaires, dont AWS, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud et SNCF Gares&amp;connexions, qui proposeront des services d\u00e8s le premier jour. SNCF Gares &amp; Connexions figure parmi les premiers partenaires \u00e0 exp\u00e9rimenter llama3.1. Dans la continuit\u00e9 du dispositif autour de la connectivit\u00e9 pr\u00e9sent\u00e9 \u00e0 Vivatech et STATION F, SNCF Gares &amp; Connexions poursuit des exp\u00e9rimentations qui int\u00e8grent de nouvelles fonctionnalit\u00e9s dont le multilinguisme au service de l\u2019information et de l\u2019orientation des voyageurs en gare en fran\u00e7ais, anglais, allemand, espagnol, italien et portugais. Pour renforcer le dispositif, une exp\u00e9rience rapide et personnalis\u00e9e est accessible \u00e9galement via un chatbot WhatsApp, qui permet d&rsquo;apporter des informations en temps r\u00e9el aux voyageurs par exemple sur leurs d\u00e9placements en gare. Jusqu&rsquo;\u00e0 aujourd&rsquo;hui, les grands mod\u00e8les de langage open-source \u00e9taient g\u00e9n\u00e9ralement en retard par rapport \u00e0 leurs homologues closed-source en termes de capacit\u00e9s et de performances. Aujourd&rsquo;hui, nous entrons dans une nouvelle \u00e8re o\u00f9 l&rsquo;open-source ouvre la voie. Nous d\u00e9voilons Llama 3.1 405B, que nous consid\u00e9rons comme le mod\u00e8le de fondation le plus grand et le plus performant au monde, disponible en libre acc\u00e8s. Avec plus de 300 millions de t\u00e9l\u00e9chargements de toutes les versions de Llama \u00e0 ce jour, nous ne faisons que commencer. Pr\u00e9sentation de Llama 3.1 Llama 3.1 405B est le premier mod\u00e8le disponible en libre acc\u00e8s qui rivalise avec les meilleurs mod\u00e8les d&rsquo;IA en termes de capacit\u00e9s de pointe dans les domaines de la connaissance g\u00e9n\u00e9rale, de l&rsquo;orientation, des math\u00e9matiques, de l&rsquo;utilisation d&rsquo;outils et de la traduction multilingue. Avec la sortie du mod\u00e8le 405B, nous sommes pr\u00eats \u00e0 stimuler l&rsquo;innovation, avec des possibilit\u00e9s de croissance et d&rsquo;exploration sans pr\u00e9c\u00e9dent. Nous pensons que la derni\u00e8re g\u00e9n\u00e9ration de Llama va donner naissance \u00e0 de nouvelles applications et \u00e0 de nouveaux paradigmes de mod\u00e9lisation, y compris la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques pour permettre l&rsquo;am\u00e9lioration et l&rsquo;entra\u00eenement de mod\u00e8les plus petits, ainsi que la distillation de mod\u00e8les &#8211; une capacit\u00e9 qui n&rsquo;a jamais \u00e9t\u00e9 atteinte \u00e0 cette \u00e9chelle dans le domaine de l&rsquo;open-source. Dans le cadre de la derni\u00e8re version, nous pr\u00e9sentons des versions am\u00e9lior\u00e9es des mod\u00e8les 8B et 70B. Ceux-ci sont multilingues et disposent d&rsquo;une longueur de de contexte nettement plus importante (128 Ko), d&rsquo;une utilisation d&rsquo;outils de pointe et de capacit\u00e9s de raisonnement globalement plus solides. Cela permet \u00e0 nos derniers mod\u00e8les de prendre en charge des cas d&rsquo;utilisation avanc\u00e9s, tels que le r\u00e9sum\u00e9 de textes longs, les agents conversationnels multilingues et les assistants de codage. Nous avons \u00e9galement modifi\u00e9 notre licence, ce qui permet aux d\u00e9veloppeurs d&rsquo;utiliser les r\u00e9sultats des mod\u00e8les Llama, y compris le 405B, pour am\u00e9liorer d&rsquo;autres mod\u00e8les. Fid\u00e8les \u00e0 notre engagement en faveur de l&rsquo;open-source, nous mettons d\u00e8s aujourd&rsquo;hui ces mod\u00e8les \u00e0 la disposition de la communaut\u00e9 pour t\u00e9l\u00e9chargement sur llama.meta.com et Hugging Face, ainsi que pour le d\u00e9veloppement imm\u00e9diat sur notre vaste \u00e9cosyst\u00e8me de plateformes partenaires. \u00c9valuations du mod\u00e8le\u00a0 Pour cette version, nous avons \u00e9valu\u00e9 les performances sur plus de 150 ensembles de donn\u00e9es de r\u00e9f\u00e9rence couvrant un large \u00e9ventail de langues. En outre, nous avons r\u00e9alis\u00e9 des \u00e9valuations humaines approfondies qui comparent Llama 3.1 \u00e0 des mod\u00e8les concurrents dans des sc\u00e9narios r\u00e9els. Notre \u00e9valuation exp\u00e9rimentale sugg\u00e8re que notre mod\u00e8le phare est comp\u00e9titif par rapport aux principaux mod\u00e8les de fondation sur une s\u00e9rie de t\u00e2ches, y compris GPT-4, GPT-4o, et Claude 3.5 Sonnet. En outre, nos petits mod\u00e8les sont comp\u00e9titifs par rapport aux mod\u00e8les closed et open-source qui ont un nombre similaire de param\u00e8tres. &nbsp; Architecture du mod\u00e8le L&rsquo;entra\u00eenement de Llama 3.1 405B sur plus de 15 trillions de tokens, notre plus grand mod\u00e8le \u00e0 ce jour, a constitu\u00e9 un d\u00e9fi majeur. Pour permettre des entra\u00eenements \u00e0 cette \u00e9chelle et obtenir les r\u00e9sultats que nous avons obtenus dans un d\u00e9lai raisonnable, nous avons consid\u00e9rablement optimis\u00e9 notre pile d&rsquo;entra\u00eenement compl\u00e8te et pouss\u00e9 l&rsquo;entra\u00eenement de notre mod\u00e8le sur plus de 16 000 GPU H100, faisant du 405B le premier mod\u00e8le Llama entra\u00een\u00e9 \u00e0 cette \u00e9chelle. Pour y rem\u00e9dier, nous avons fait des choix de conception qui visent \u00e0 maintenir le processus de d\u00e9veloppement du mod\u00e8le \u00e9volutif et simple. Nous avons opt\u00e9 pour une architecture de mod\u00e8le de transformateur standard de d\u00e9codeur uniquement avec des adaptations mineures, plut\u00f4t que pour un mod\u00e8le de m\u00e9lange d&rsquo;experts (MoE) afin de maximiser la stabilit\u00e9 de l&rsquo;apprentissage. Nous avons adopt\u00e9 une proc\u00e9dure it\u00e9rative de post-entra\u00eenement, o\u00f9 chaque tour utilise un fine-tuning supervis\u00e9 et une optimisation directe des pr\u00e9f\u00e9rences. Cela nous a permis de cr\u00e9er des donn\u00e9es synth\u00e9tiques de la plus haute qualit\u00e9 pour chaque cycle et d&rsquo;am\u00e9liorer les performances de chaque capacit\u00e9. Par rapport aux versions pr\u00e9c\u00e9dentes de Llama, nous avons am\u00e9lior\u00e9 \u00e0 la fois la quantit\u00e9 et la qualit\u00e9 des donn\u00e9es que nous utilisons pour la pr\u00e9- et la post-formation. Ces am\u00e9liorations comprennent le d\u00e9veloppement de pipelines de pr\u00e9-traitement et de curation plus minutieux pour les donn\u00e9es de pr\u00e9-entra\u00eenement, le d\u00e9veloppement d&rsquo;une assurance qualit\u00e9 plus rigoureuse et des approches de filtrage pour les donn\u00e9es de post-entra\u00eenement. Comme pr\u00e9vu par les lois d&rsquo;\u00e9chelle pour les mod\u00e8les de langage, notre nouveau mod\u00e8le phare surpasse les mod\u00e8les plus petits form\u00e9s \u00e0 l&rsquo;aide de la m\u00eame proc\u00e9dure. Nous avons \u00e9galement utilis\u00e9 le mod\u00e8le de param\u00e8tres 405B pour am\u00e9liorer la qualit\u00e9 post-entra\u00eenement de nos mod\u00e8les plus petits. Pour soutenir l&rsquo;inf\u00e9rence de production \u00e0 grande \u00e9chelle pour un mod\u00e8le \u00e0 l&rsquo;\u00e9chelle du 405B, nous avons quantifi\u00e9 nos mod\u00e8les de 16 bits (BF16) \u00e0 8 bits (FP8) num\u00e9riques, r\u00e9duisant efficacement les exigences de calcul n\u00e9cessaires et permettant au mod\u00e8le de fonctionner dans un seul n\u0153ud de serveur. Fine-tuning de l&rsquo;instruction et du chat Avec Llama 3.1 405B, nous nous sommes efforc\u00e9s d&rsquo;am\u00e9liorer l&rsquo;utilit\u00e9, la qualit\u00e9 et la capacit\u00e9 du mod\u00e8le \u00e0 suivre des instructions d\u00e9taill\u00e9es en r\u00e9ponse aux instructions de l&rsquo;utilisateur, tout en garantissant des niveaux \u00e9lev\u00e9s de s\u00e9curit\u00e9. Nos plus grands d\u00e9fis ont \u00e9t\u00e9 la prise en charge d&rsquo;un plus grand nombre de capacit\u00e9s, la fen\u00eatre contextuelle de 128K et l&rsquo;augmentation de la taille des mod\u00e8les. En post-entra\u00eenement, nous produisons des mod\u00e8les de chat finaux en effectuant plusieurs cycles d&rsquo;alignement sur le mod\u00e8le pr\u00e9-entra\u00een\u00e9. Chaque cycle implique un fine-tuning supervis\u00e9 (supervised fine-tuning &#8211; SFT), un \u00e9chantillonnage par rejet (Rejection Sampling &#8211; RS) et une optimisation directe des pr\u00e9f\u00e9rences (Direct Preference Optimization &#8211; DPO). Nous utilisons la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques pour produire la grande majorit\u00e9 de nos exemples de SFT, en it\u00e9rant plusieurs fois pour produire des donn\u00e9es synth\u00e9tiques de qualit\u00e9 de plus en plus \u00e9lev\u00e9e pour toutes les capacit\u00e9s. En outre, nous investissons dans de multiples techniques de traitement des donn\u00e9es pour filtrer ces donn\u00e9es synth\u00e9tiques afin d&rsquo;obtenir la meilleure qualit\u00e9 possible. Cela nous permet d&rsquo;adapter la quantit\u00e9 de donn\u00e9es fine-tun\u00e9es \u00e0 l&rsquo;ensemble des capacit\u00e9s. Nous \u00e9quilibrons soigneusement les donn\u00e9es afin de produire un mod\u00e8le de haute qualit\u00e9 pour toutes les capacit\u00e9s. Par exemple, nous maintenons la qualit\u00e9 de notre mod\u00e8le sur les benchmarks \u00e0 fen\u00eatre de contexte court, m\u00eame lorsque nous l&rsquo;\u00e9tendons \u00e0 un contexte de 128K. De m\u00eame, notre mod\u00e8le continue \u00e0 fournir des r\u00e9ponses maximalement utiles, m\u00eame lorsque nous ajoutons des mesures d&rsquo;att\u00e9nuation de la s\u00e9curit\u00e9. Le syst\u00e8me Llama Les mod\u00e8les Llama ont toujours \u00e9t\u00e9 con\u00e7us pour fonctionner dans le cadre d&rsquo;un syst\u00e8me global capable d&rsquo;orchestrer plusieurs composants, y compris l&rsquo;appel \u00e0 des outils externes. Notre vision est d&rsquo;aller au-del\u00e0 des mod\u00e8les de fondation pour donner aux d\u00e9veloppeurs l&rsquo;acc\u00e8s \u00e0 un syst\u00e8me plus large qui leur donne la flexibilit\u00e9 de concevoir et de cr\u00e9er des offres personnalis\u00e9es qui s&rsquo;alignent sur leur vision. Cette r\u00e9flexion a d\u00e9but\u00e9 l&rsquo;ann\u00e9e derni\u00e8re lorsque nous avons pr\u00e9sent\u00e9 pour la premi\u00e8re fois l&rsquo;incorporation de composants en dehors du LLM principal. Dans le cadre de nos efforts continus pour d\u00e9velopper l&rsquo;IA de mani\u00e8re responsable au-del\u00e0 de la couche de mod\u00e8le et pour aider les autres \u00e0 faire de m\u00eame, nous publions un syst\u00e8me de r\u00e9f\u00e9rence complet qui comprend plusieurs exemples d&rsquo;applications et de nouveaux composants tels que Llama Guard 3, un mod\u00e8le de s\u00e9curit\u00e9 multilingue, et Prompt Guard, un filtre d&rsquo;injection de prompts. Ces exemples d&rsquo;applications sont en open-source et peuvent \u00eatre utilis\u00e9s par la communaut\u00e9. La mise en \u0153uvre des composants de cette vision du syst\u00e8me Llama est encore fragment\u00e9e. C&rsquo;est pourquoi nous avons commenc\u00e9 \u00e0 travailler avec l&rsquo;industrie, les start-up et la communaut\u00e9 au sens large pour aider \u00e0 mieux d\u00e9finir les interfaces de ces composants. Pour ce faire, nous lan\u00e7ons un appel \u00e0 commentaires sur GitHub pour ce que nous appelons \u00ab Llama Stack \u00bb. Llama Stack est un ensemble d&rsquo;interfaces standardis\u00e9es et valid\u00e9es pour la construction de composants canoniques de la cha\u00eene d&rsquo;outils (fine-tuning, g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques) et d&rsquo;applications agentiques. Nous esp\u00e9rons que ces interfaces seront adopt\u00e9es par l&rsquo;ensemble de l&rsquo;\u00e9cosyst\u00e8me, ce qui devrait faciliter l&rsquo;interop\u00e9rabilit\u00e9. Nous sommes ouverts \u00e0 tout commentaire et \u00e0 toute am\u00e9lioration de la proposition. Nous sommes impatients de d\u00e9velopper l&rsquo;\u00e9cosyst\u00e8me autour de Llama et d&rsquo;abaisser les barri\u00e8res pour les d\u00e9veloppeurs et les fournisseurs de plateformes. L&rsquo;approche ouverte favorise l&rsquo;innovation Contrairement aux mod\u00e8les ferm\u00e9s, les poids des mod\u00e8les Llama peuvent \u00eatre t\u00e9l\u00e9charg\u00e9s. Les d\u00e9veloppeurs peuvent enti\u00e8rement personnaliser les mod\u00e8les en fonction de leurs besoins et de leurs applications, s&rsquo;entra\u00eener sur de nouveaux ensembles de donn\u00e9es et proc\u00e9der \u00e0 des ajustements suppl\u00e9mentaires. Cela permet \u00e0 l&rsquo;ensemble de la communaut\u00e9 des d\u00e9veloppeurs et au monde entier de mieux r\u00e9aliser la puissance de l&rsquo;IA g\u00e9n\u00e9rative. Les d\u00e9veloppeurs peuvent enti\u00e8rement personnaliser leurs applications et les ex\u00e9cuter dans n&rsquo;importe quel environnement, que ce soit sur sursite, dans le cloud ou m\u00eame localement sur un ordinateur portable, le tout sans partager de donn\u00e9es avec Meta. Bien que beaucoup puissent affirmer que les mod\u00e8les ferm\u00e9s sont plus rentables, les mod\u00e8les Llama offrent un co\u00fbt par token parmi les plus bas de l&rsquo;industrie, selon les tests effectu\u00e9s par Artificial Analysis. Comme l&rsquo;a fait remarquer Mark Zuckerberg, l&rsquo;open-source permettra \u00e0 un plus grand nombre de personnes dans le monde d&rsquo;avoir acc\u00e8s aux avantages et aux possibilit\u00e9s de l&rsquo;IA, de ne pas concentrer le pouvoir entre les mains d&rsquo;un petit nombre et de d\u00e9ployer la technologie de mani\u00e8re plus homog\u00e8ne et plus s\u00fbre dans la soci\u00e9t\u00e9. C&rsquo;est pourquoi nous continuons \u00e0 prendre des mesures pour que l&rsquo;IA en libre acc\u00e8s devienne la norme du secteur. Nous avons vu la communaut\u00e9 r\u00e9aliser des choses \u00e9tonnantes avec les mod\u00e8les Llama pr\u00e9c\u00e9dents, notamment un compagnon d&rsquo;\u00e9tude IA construit avec Llama et d\u00e9ploy\u00e9 dans WhatsApp et Messenger, un LLM adapt\u00e9 au domaine m\u00e9dical con\u00e7u pour aider \u00e0 guider la prise de d\u00e9cision clinique, et une start-up \u00e0 but non lucratif dans le domaine de la sant\u00e9 au Br\u00e9sil qui facilite l&rsquo;organisation et la communication par le syst\u00e8me de sant\u00e9 des informations relatives \u00e0 l&rsquo;hospitalisation des patients, tout cela en s\u00e9curisant les donn\u00e9es. Nous sommes impatients de voir ce qu&rsquo;ils construiront avec nos derniers mod\u00e8les gr\u00e2ce \u00e0 la puissance de l&rsquo;open-source. Construire avec Llama 3.1 405B Pour le d\u00e9veloppeur moyen, l&rsquo;utilisation d&rsquo;un mod\u00e8le \u00e0 l&rsquo;\u00e9chelle du 405B est un d\u00e9fi. Bien qu&rsquo;il s&rsquo;agisse d&rsquo;un mod\u00e8le incroyablement puissant, nous reconnaissons qu&rsquo;il n\u00e9cessite des ressources de calcul et une expertise consid\u00e9rables. Nous avons \u00e9chang\u00e9 avec la communaut\u00e9, et le d\u00e9veloppement de l&rsquo;IA g\u00e9n\u00e9rative ne se limite pas aux mod\u00e8les d&rsquo;incitation. Nous voulons permettre \u00e0 chacun de tirer le meilleur parti de la 405B, y compris : Inf\u00e9rence en temps r\u00e9el et par lots Fine-tuning supervis\u00e9 \u00c9valuation de votre mod\u00e8le pour votre application sp\u00e9cifique Pr\u00e9-entra\u00eenement continu G\u00e9n\u00e9ration augment\u00e9e\u00a0 de r\u00e9cup\u00e9ration (RAG) Appel de fonction G\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques C&rsquo;est l\u00e0 que l&rsquo;\u00e9cosyst\u00e8me Llama peut vous aider. D\u00e8s le premier jour, les d\u00e9veloppeurs peuvent profiter de toutes les capacit\u00e9s avanc\u00e9es du mod\u00e8le 405B et commencer \u00e0 construire imm\u00e9diatement. Les d\u00e9veloppeurs peuvent \u00e9galement explorer des flux de travail avanc\u00e9s tels que la g\u00e9n\u00e9ration de donn\u00e9es synth\u00e9tiques faciles \u00e0 utiliser, suivre des instructions cl\u00e9s en main pour la distillation de mod\u00e8les et activer un RAG transparent avec des solutions de partenaires, notamment AWS, NVIDIA et Databricks. En outre, Groq a optimis\u00e9 l&rsquo;inf\u00e9rence \u00e0 faible latence pour les d\u00e9ploiements dans le cloud, Dell r\u00e9alisant des optimisations similaires pour les syst\u00e8mes sur site. Nous avons travaill\u00e9 avec des projets communautaires cl\u00e9s tels que vLLM, TensorRT et PyTorch pour int\u00e9grer le support d\u00e8s le premier jour afin de s&rsquo;assurer que la communaut\u00e9 est pr\u00eate pour le d\u00e9ploiement en production. Nous esp\u00e9rons que notre publication du 405B stimulera \u00e9galement l&rsquo;innovation au sein de la communaut\u00e9 \u00e9largie afin de faciliter l&rsquo;inf\u00e9rence et le fine-tuning des mod\u00e8les de cette \u00e9chelle et de permettre la prochaine vague de recherche sur la distillation de mod\u00e8les. Testez la collection de mod\u00e8les Llama 3.1 d\u00e8s aujourd&rsquo;hui Nous sommes impatients de voir ce que la communaut\u00e9 fera de ce travail. Il y a tellement de potentiel pour construire de nouvelles exp\u00e9riences utiles en utilisant le multilinguisme et l&rsquo;augmentation de la longueur de la fen\u00eatre de contexte. Avec la pile Llama et les nouveaux outils de s\u00e9curit\u00e9, nous sommes impatients de continuer \u00e0 construire avec la communaut\u00e9 open-source de mani\u00e8re responsable. Avant de publier un mod\u00e8le, nous nous effor\u00e7ons d&rsquo;identifier, d&rsquo;\u00e9valuer et d&rsquo;att\u00e9nuer les risques potentiels par le biais de plusieurs mesures, notamment des exercices de d\u00e9couverte des risques avant le d\u00e9ploiement, par l&rsquo;interm\u00e9diaire d&rsquo;une \u00e9quipe d&rsquo;experts et d&rsquo;une mise au point de la s\u00e9curit\u00e9. Par exemple, nous menons des exercices intensifs avec des experts externes et internes pour tester les mod\u00e8les et trouver des fa\u00e7ons inattendues de les utiliser. (Pour en savoir plus sur la fa\u00e7on dont nous d\u00e9veloppons notre collection de mod\u00e8les Llama 3.1 de mani\u00e8re responsable, lisez cet article de blog). Bien qu&rsquo;il s&rsquo;agisse de notre plus grand mod\u00e8le \u00e0 ce jour, nous pensons qu&rsquo;il y a encore beaucoup de choses \u00e0 explorer \u00e0 l&rsquo;avenir, notamment des tailles plus adapt\u00e9es aux appareils, des modalit\u00e9s suppl\u00e9mentaires et davantage d&rsquo;investissements au niveau de la plateforme d&rsquo;agents. Comme toujours, nous sommes impatients de d\u00e9couvrir les produits et les exp\u00e9riences extraordinaires que la communaut\u00e9 va cr\u00e9er avec ces mod\u00e8les. Ce travail a \u00e9t\u00e9 soutenu par nos partenaires de la communaut\u00e9 de l&rsquo;IA. Nous tenons \u00e0 les remercier (par ordre alphab\u00e9tique) : Accenture, Amazon Web Services, AMD, Anyscale, CloudFlare, Databricks, Dell, Deloitte, Fireworks.ai, Google Cloud, Groq, Hugging Face, IBM WatsonX, Infosys, Intel, Kaggle, Microsoft Azure, NVIDIA DGX Cloud, OctoAI, Oracle Cloud, PwC, Replicate, Sarvam AI, Scale.AI, SNCF, Snowflake, et UC Berkeley &#8211; vLLM Project.","og_url":"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/","og_site_name":"\u00c0 propos de Meta","article_published_time":"2024-07-23T15:19:06+00:00","article_modified_time":"2024-07-23T15:38:03+00:00","og_image":[{"url":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/llama3.png?fit=602%2C339","width":602,"height":339,"type":"image\/png"}],"author":"hopscotch","twitter_card":"summary_large_image","twitter_creator":"@METAfrance","twitter_misc":{"Written by":"Meta","Est. reading time":"13 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/#article","isPartOf":{"@id":"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/"},"author":"Facebook company","headline":"Lancement de Llama 3.1 : nos mod\u00e8les les plus performants \u00e0 ce jour","datePublished":"2024-07-23T15:19:06+00:00","dateModified":"2024-07-23T15:38:03+00:00","mainEntityOfPage":{"@id":"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/"},"wordCount":3058,"publisher":{"@id":"https:\/\/about.fb.com\/fr\/#organization"},"image":{"@id":"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/#primaryimage"},"thumbnailUrl":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/llama3.png?fit=602%2C339","keywords":["intelligence artificielle","Llama","Meta","mod\u00e8les open-source","mod\u00e9lisation","open source"],"articleSection":["Actualit\u00e9s","Intelligence Artificielle"],"inLanguage":"fr-FR"},{"@type":"WebPage","@id":"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/","url":"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/","name":"Lancement de Llama 3.1 : nos mod\u00e8les les plus performants \u00e0 ce jour | \u00c0 propos de Meta","isPartOf":{"@id":"https:\/\/about.fb.com\/fr\/#website"},"primaryImageOfPage":{"@id":"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/#primaryimage"},"image":{"@id":"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/#primaryimage"},"thumbnailUrl":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/llama3.png?fit=602%2C339","datePublished":"2024-07-23T15:19:06+00:00","dateModified":"2024-07-23T15:38:03+00:00","breadcrumb":{"@id":"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/"]}],"author":"\u00c0 propos de Meta"},{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/#primaryimage","url":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/llama3.png?fit=602%2C339","contentUrl":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/llama3.png?fit=602%2C339","width":602,"height":339},{"@type":"BreadcrumbList","@id":"https:\/\/about.fb.com\/fr\/news\/2024\/07\/lancement-de-llama-3-1-nos-modeles-les-plus-performants-a-ce-jour\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/about.fb.com\/fr\/"},{"@type":"ListItem","position":2,"name":"Lancement de Llama 3.1 : nos mod\u00e8les les plus performants \u00e0 ce jour"}]},{"@type":"WebSite","@id":"https:\/\/about.fb.com\/fr\/#website","url":"https:\/\/about.fb.com\/news\/","name":"\u00c0 propos de Meta","description":"","publisher":{"@id":"https:\/\/about.fb.com\/fr\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/about.fb.com\/fr\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"fr-FR","alternateName":["Meta Newsroom","Meta"]},{"@type":"Organization","@id":"https:\/\/about.fb.com\/fr\/#organization","name":"Meta","url":"https:\/\/about.fb.com\/fr\/","logo":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/about.fb.com\/fr\/#\/schema\/logo\/image\/","url":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500","contentUrl":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500","width":8000,"height":4500,"caption":"Meta"},"image":{"@id":"https:\/\/about.fb.com\/fr\/#\/schema\/logo\/image\/"}}]}},"jetpack_featured_media_url":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2024\/07\/llama3.png?fit=602%2C339","jetpack-related-posts":[],"jetpack_sharing_enabled":true,"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/posts\/23940","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/users\/164097090"}],"replies":[{"embeddable":true,"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/comments?post=23940"}],"version-history":[{"count":5,"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/posts\/23940\/revisions"}],"predecessor-version":[{"id":23955,"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/posts\/23940\/revisions\/23955"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/media\/23941"}],"wp:attachment":[{"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/media?parent=23940"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/categories?post=23940"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/tags?post=23940"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}