{"id":25441,"date":"2024-09-25T11:30:09","date_gmt":"2024-09-25T17:30:09","guid":{"rendered":"https:\/\/about.fb.com\/ltam\/?p=25441"},"modified":"2024-09-25T11:30:09","modified_gmt":"2024-09-25T17:30:09","slug":"llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables","status":"publish","type":"post","link":"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/","title":{"rendered":"Llama 3.2: revolucionando la IA y la visi\u00f3n de vanguardia con modelos abiertos y personalizables"},"content":{"rendered":"<p><span style=\"font-weight: 400\">Estamos entusiasmados con el <\/span><a href=\"https:\/\/about.fb.com\/br\/news\/2024\/09\/com-um-crescimento-de-10-vezes-desde-2023-o-llama-e-o-principal-motor-de-inovacao-em-ia\/\"><span style=\"font-weight: 400\">impacto que ha tenido el grupo de modelos Llama 3.1<\/span><\/a><span style=\"font-weight: 400\"> en los dos meses transcurridos desde su lanzamiento, incluido el <\/span><a href=\"https:\/\/www.meta.ai\/?utm_source=llama_meta_site&amp;utm_medium=web&amp;utm_content=Llama_nav&amp;utm_campaign=July_moment\"><span style=\"font-weight: 400\">405B<\/span><\/a><span style=\"font-weight: 400\">, el primer modelo de IA abierta a nivel de frontera. Aunque estos modelos son incre\u00edblemente potentes, somos conscientes de que su implementaci\u00f3n requiere recursos inform\u00e1ticos y experiencia significativos. Tambi\u00e9n hemos recibido comentarios de desarrolladores que no tienen acceso a estos recursos, pero que a\u00fan as\u00ed desean la oportunidad de trabajar con Llama. Como ha compartido hoy Mark Zuckerberg en Connect, ya no tendr\u00e1n que esperar m\u00e1s. Hoy lanzamos Llama 3.2, que incluye LLM de visi\u00f3n peque\u00f1os y medianos (11B y 90B) y modelos ligeros solo de texto (1B y 3B) que se adaptan a determinados dispositivos m\u00f3viles y de borde.<\/span><\/p>\n<p><span style=\"font-weight: 400\">S\u00f3lo ha pasado un a\u00f1o y medio desde que anunciamos Llama por primera vez, y hemos hecho progresos incre\u00edbles en tan poco tiempo. Este a\u00f1o,<\/span><a href=\"https:\/\/ai.meta.com\/blog\/llama-usage-doubled-may-through-july-2024\/\"> <span style=\"font-weight: 400\">Llama ha multiplicado por 10 su crecimiento<\/span><\/a><span style=\"font-weight: 400\"> y se ha convertido en el est\u00e1ndar de la innovaci\u00f3n responsable. Adem\u00e1s, Llama sigue siendo l\u00edder en apertura, modificabilidad y rentabilidad, y compite con los modelos cerrados, incluso a la cabeza en algunas \u00e1reas. Creemos que la apertura impulsa la innovaci\u00f3n y es el camino correcto, por eso seguimos compartiendo nuestra investigaci\u00f3n y colaborando con nuestros socios y la comunidad de desarrolladores.<\/span><span style=\"font-weight: 400\"><br \/>\n<\/span><\/p>\n<p><span style=\"font-weight: 400\">Los modelos de Llama 3.2 se pueden descargar en<\/span><a href=\"http:\/\/llama.meta.com\"> <span style=\"font-weight: 400\">llama.com<\/span><\/a><span style=\"font-weight: 400\"> y<\/span><a href=\"https:\/\/huggingface.co\/meta-llama\"> <span style=\"font-weight: 400\">Hugging Face<\/span><\/a><span style=\"font-weight: 400\">, y est\u00e1n disponibles para su desarrollo inmediato en nuestro amplio ecosistema de plataformas asociadas. Los socios son una parte importante de este trabajo, y hemos trabajado con m\u00e1s de 25 empresas, entre ellas AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud y Snowflake, para habilitar los servicios desde el primer d\u00eda. Para la versi\u00f3n Llama 3.2, tambi\u00e9n estamos trabajando con los socios de dispositivos Arm, MediaTek y Qualcomm para ofrecer una amplia gama de servicios en el lanzamiento. A partir de hoy, tambi\u00e9n pondremos<\/span><a href=\"https:\/\/github.com\/meta-llama\/llama-stack\"> <span style=\"font-weight: 400\">Llama Stack<\/span><\/a><span style=\"font-weight: 400\"> a disposici\u00f3n de la comunidad. Para m\u00e1s detalles sobre la \u00faltima versi\u00f3n, incluida informaci\u00f3n sobre la<\/span><a href=\"https:\/\/euneedsai.com\/\"> <span style=\"font-weight: 400\">disponibilidad multimodal<\/span><\/a><span style=\"font-weight: 400\"> en Europa, consulta<\/span><a href=\"https:\/\/github.com\/meta-llama\/llama-models\/blob\/main\/models\/llama3_2\/USE_POLICY.md\"> <span style=\"font-weight: 400\">nuestra pol\u00edtica de uso aceptable<\/span><\/a><span style=\"font-weight: 400\">.<\/span><\/p>\n<p><b>Conoce Llama 3.2<\/b><\/p>\n<p><span style=\"font-weight: 400\">Los dos modelos m\u00e1s grandes de la colecci\u00f3n Llama 3.2, el 11B y el 90B, admiten casos de uso de razonamiento de im\u00e1genes, como la comprensi\u00f3n a nivel de documentos, incluidos cuadros y gr\u00e1ficos, el subtitulado de im\u00e1genes y tareas de fundamentaci\u00f3n visual, como la localizaci\u00f3n direccional de objetos en im\u00e1genes a partir de descripciones en lenguaje natural. Por ejemplo, una persona podr\u00eda preguntar en qu\u00e9 mes del a\u00f1o anterior su peque\u00f1a empresa tuvo las mejores ventas, y Llama 3.2 podr\u00eda razonar bas\u00e1ndose en un gr\u00e1fico disponible y proporcionar r\u00e1pidamente la respuesta. En otro ejemplo, el modelo podr\u00eda razonar con un mapa y ayudar a responder preguntas como cu\u00e1ndo una caminata puede volverse m\u00e1s empinada o la distancia de un sendero concreto marcada en el mapa. Los modelos 11B y 90B tambi\u00e9n pueden tender un puente entre la visi\u00f3n y el lenguaje extrayendo detalles de una imagen, comprendiendo la escena y, a continuaci\u00f3n, elaborando una o dos frases que podr\u00edan utilizarse como pie de foto para ayudar a contar la historia.<\/span><span style=\"font-weight: 400\"><br \/>\n<\/span><\/p>\n<p><span style=\"font-weight: 400\">Los modelos ligeros 1B y 3B tienen una gran capacidad de generaci\u00f3n de texto multiling\u00fce y de llamada a herramientas. Estos modelos permiten a los desarrolladores crear aplicaciones personalizadas, con una gran privacidad y en las que los datos nunca salen del dispositivo. Por ejemplo, una aplicaci\u00f3n de este tipo podr\u00eda ayudar a resumir los 10 \u00faltimos mensajes recibidos, extraer elementos de acci\u00f3n y aprovechar la llamada a herramientas para enviar directamente invitaciones de calendario para reuniones de seguimiento.<\/span><span style=\"font-weight: 400\"><br \/>\n<\/span><\/p>\n<p><span style=\"font-weight: 400\">Ejecutar estos modelos localmente tiene dos grandes ventajas. En primer lugar, las solicitudes y respuestas pueden parecer instant\u00e1neas, ya que el procesamiento se realiza localmente. En segundo lugar, al ejecutar los modelos localmente se mantiene la privacidad, ya que no se env\u00edan datos como mensajes e informaci\u00f3n del calendario a la nube, lo que hace que la aplicaci\u00f3n en general sea m\u00e1s privada. Dado que el procesamiento se realiza localmente, la aplicaci\u00f3n puede controlar claramente qu\u00e9 consultas permanecen en el dispositivo y cu\u00e1les pueden tener que ser procesadas por un modelo mayor en la nube.<\/span><\/p>\n<p><b>Evaluaci\u00f3n de los modelos<\/b><\/p>\n<p><span style=\"font-weight: 400\">Nuestra evaluaci\u00f3n sugiere que los modelos de visi\u00f3n Llama 3.2 son competitivos con los principales modelos de base, Claude 3 Haiku y GPT4o-mini en el reconocimiento de im\u00e1genes y en una serie de tareas de comprensi\u00f3n visual. El modelo 3B supera a los modelos Gemma 2 2.6B y Phi 3.5-mini en tareas como el seguimiento de instrucciones, el resumen, la reescritura de instrucciones y el uso de herramientas, mientras que el 1B es competitivo con Gemma.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Evaluamos el rendimiento en m\u00e1s de 150 conjuntos de datos de referencia que abarcan una amplia gama de lenguajes. En el caso de los LLM de visi\u00f3n, evaluamos el rendimiento en pruebas de comprensi\u00f3n de im\u00e1genes y razonamiento visual. Adem\u00e1s, hemos realizado evaluaciones humanas exhaustivas que comparan Llama 3.2 con modelos de la competencia en situaciones reales.\u00a0<\/span><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-25473\" src=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image10.png?w=960&#038;resize=686%2C545\" alt=\"\" width=\"686\" height=\"545\" srcset=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image10.png?w=1999 1999w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image10.png?w=503 503w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image10.png?w=300 300w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image10.png?w=768 768w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image10.png?w=1024 1024w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image10.png?w=1536 1536w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image10.png?w=1359 1359w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image10.png?w=755 755w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image10.png?w=1920 1920w\" sizes=\"auto, (max-width: 686px) 100vw, 686px\" \/><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-25476\" src=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image5_6eb4b5.png?w=960&#038;resize=694%2C222\" alt=\"\" width=\"694\" height=\"222\" srcset=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image5_6eb4b5.png?w=1999 1999w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image5_6eb4b5.png?w=600 600w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image5_6eb4b5.png?w=300 300w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image5_6eb4b5.png?w=768 768w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image5_6eb4b5.png?w=1024 1024w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image5_6eb4b5.png?w=1536 1536w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image5_6eb4b5.png?w=1920 1920w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image5_6eb4b5.png?w=800 800w\" sizes=\"auto, (max-width: 694px) 100vw, 694px\" \/><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-25470\" src=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image12_772d8f.png?w=960&#038;resize=624%2C563\" alt=\"\" width=\"624\" height=\"563\" srcset=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image12_772d8f.png?w=1999 1999w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image12_772d8f.png?w=443 443w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image12_772d8f.png?w=300 300w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image12_772d8f.png?w=768 768w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image12_772d8f.png?w=1024 1024w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image12_772d8f.png?w=1536 1536w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image12_772d8f.png?w=1196 1196w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image12_772d8f.png?w=664 664w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image12_772d8f.png?w=1920 1920w\" sizes=\"auto, (max-width: 624px) 100vw, 624px\" \/><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-25469\" src=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image9.png?w=960&#038;resize=728%2C383\" alt=\"\" width=\"728\" height=\"383\" srcset=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image9.png?w=1999 1999w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image9.png?w=600 600w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image9.png?w=300 300w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image9.png?w=768 768w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image9.png?w=1024 1024w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image9.png?w=1536 1536w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image9.png?w=1920 1920w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image9.png?w=800 800w\" sizes=\"auto, (max-width: 728px) 100vw, 728px\" \/><\/p>\n<p><b>Modelos de visi\u00f3n<\/b><\/p>\n<p><span style=\"font-weight: 400\">Al ser los primeros modelos Llama que admiten tareas de visi\u00f3n, los modelos 11B y 90B requer\u00edan una arquitectura de modelo completamente nueva que admitiera el razonamiento por im\u00e1genes.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Para a\u00f1adir soporte de entrada de im\u00e1genes, entrenamos un conjunto de pesos adaptadores que integran el codificador de im\u00e1genes preentrenado en el modelo de lenguaje preentrenado. El adaptador consiste en una serie de capas de atenci\u00f3n cruzada que introducen las representaciones del codificador de im\u00e1genes en el modelo de lenguaje. Entrenamos el adaptador en pares texto-imagen para alinear las representaciones de la imagen con las del lenguaje. Durante el entrenamiento del adaptador, tambi\u00e9n actualizamos los par\u00e1metros del codificador de im\u00e1genes, pero intencionadamente no actualizamos los par\u00e1metros del modelo ling\u00fc\u00edstico. De este modo, mantenemos intactas todas las funciones de s\u00f3lo texto y proporcionamos a los desarrolladores un sustituto directo para los modelos Llama 3.1.\u00a0\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">Nuestro proceso de formaci\u00f3n consta de varias etapas, partiendo de modelos de texto Llama 3.1 preformados. En primer lugar, a\u00f1adimos adaptadores y codificadores de im\u00e1genes y, a continuaci\u00f3n, realizamos un preentrenamiento con datos de pares ruidosos (imagen, texto) a gran escala. A continuaci\u00f3n, realizamos el entrenamiento con datos de pares (imagen, texto) a media escala de alta calidad en el dominio y mejorados por el conocimiento.<\/span><\/p>\n<p><span style=\"font-weight: 400\">En el postentrenamiento, utilizamos una receta similar a la de los modelos de texto, realizando varias rondas de alineaci\u00f3n sobre ajuste fino supervisado, muestreo de rechazo y optimizaci\u00f3n directa de preferencias. Aprovechamos la generaci\u00f3n de datos sint\u00e9ticos mediante el modelo Llama 3.1 para filtrar y aumentar las preguntas y respuestas sobre im\u00e1genes del dominio, y utilizamos un modelo de recompensa para clasificar todas las respuestas candidatas con el fin de proporcionar datos de ajuste de alta calidad. Tambi\u00e9n a\u00f1adimos datos de mitigaci\u00f3n de la seguridad para producir un modelo con un alto nivel de seguridad al tiempo que se conserva la utilidad del modo.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">El resultado final es un conjunto de modelos que pueden aceptar tanto mensajes de imagen como de texto, y que comprenden y razonan profundamente sobre la combinaci\u00f3n. Se trata de un paso m\u00e1s para que los modelos Llama tengan capacidades agenticas a\u00fan m\u00e1s ricas.\u00a0<\/span><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-25472\" src=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image13_5996f3.gif?w=600&#038;resize=600%2C432\" alt=\"\" width=\"600\" height=\"432\" \/><\/p>\n<p><b>Modelos ligeros<\/b><b><br \/>\n<\/b><\/p>\n<p><span style=\"font-weight: 400\">Como hemos compartido sobre Llama 3.1, los potentes modelos de profesores pueden aprovecharse para crear modelos m\u00e1s peque\u00f1os con un rendimiento mejorado. Hemos utilizado dos m\u00e9todos -la poda y la destilaci\u00f3n- en los modelos 1B y 3B, convirti\u00e9ndolos en los primeros modelos Llama ligeros de gran capacidad que caben en dispositivos de forma eficiente.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 400\">La poda nos ha permitido reducir el tama\u00f1o de los modelos existentes en la manada Llama, recuperando al mismo tiempo todo el conocimiento y el rendimiento posibles. Para los modelos 1B y 3B, adoptamos el enfoque de utilizar la poda estructurada de una sola vez a partir del Llama 3.1 8B. Esto implic\u00f3 eliminar sistem\u00e1ticamente partes de la red y ajustar la magnitud de los pesos y gradientes para crear un modelo m\u00e1s peque\u00f1o y eficiente que conserve el rendimiento de la red original.<\/span><\/p>\n<p><span style=\"font-weight: 400\">La destilaci\u00f3n de conocimientos utiliza una red m\u00e1s grande para impartir conocimientos en una red m\u00e1s peque\u00f1a, con la idea de que un modelo m\u00e1s peque\u00f1o puede lograr un mejor rendimiento utilizando un maestro que el que podr\u00eda lograr partiendo de cero. Para los modelos 1B y 3B de Llama 3.2, incorporamos logits de los modelos 8B y 70B de Llama 3.1 en la fase de preentrenamiento del desarrollo del modelo, en la que los resultados (logits) de estos modelos m\u00e1s grandes se utilizaron como objetivos a nivel de token. La destilaci\u00f3n de conocimientos se utiliz\u00f3 despu\u00e9s de la poda para recuperar el rendimiento.<\/span><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-25478\" src=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image4-1.png?w=960&#038;resize=652%2C345\" alt=\"\" width=\"652\" height=\"345\" srcset=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image4-1.png?w=1999 1999w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image4-1.png?w=600 600w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image4-1.png?w=300 300w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image4-1.png?w=768 768w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image4-1.png?w=1024 1024w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image4-1.png?w=1536 1536w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image4-1.png?w=1920 1920w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image4-1.png?w=800 800w\" sizes=\"auto, (max-width: 652px) 100vw, 652px\" \/><\/p>\n<p><span style=\"font-weight: 400\">En el post-entrenamiento, utilizamos una receta similar a la de Llama 3.1 y producimos modelos de chat finales realizando varias rondas de alineaci\u00f3n sobre el modelo pre-entrenado. Cada ronda implica un ajuste fino supervisado (SFT), un muestreo de rechazo (RS) y una optimizaci\u00f3n directa de preferencias (DPO).<\/span><span style=\"font-weight: 400\"><br \/>\n<\/span><\/p>\n<p><span style=\"font-weight: 400\">En el postentrenamiento, ampliamos el soporte de longitud de contexto a 128.000 tokens, manteniendo la misma calidad que el modelo preentrenado. Tambi\u00e9n generamos datos sint\u00e9ticos que procesamos y filtramos cuidadosamente para garantizar una alta calidad. Mezclamos cuidadosamente los datos para optimizar la alta calidad en m\u00faltiples capacidades como el resumen, la reescritura, el seguimiento de instrucciones, el razonamiento ling\u00fc\u00edstico y el uso de herramientas.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Para que la comunidad pueda innovar en estos modelos, hemos trabajado en estrecha colaboraci\u00f3n con Qualcomm y Mediatek, las dos principales empresas de sistemas m\u00f3viles en un chip (SoC) del mundo, y Arm, que proporciona la plataforma inform\u00e1tica fundamental para<\/span><a href=\"https:\/\/www.arm.com\/company\"> <span style=\"font-weight: 400\">el 99%<\/span><\/a><span style=\"font-weight: 400\"> de los dispositivos m\u00f3viles. Las ponderaciones que se publican hoy se basan en n\u00fameros BFloat16. Nuestros equipos est\u00e1n explorando variantes cuantizadas que funcionen a\u00fan m\u00e1s r\u00e1pido, y esperamos compartir m\u00e1s sobre esto pronto.<\/span><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-25466\" src=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image1.gif?w=600&#038;resize=508%2C366\" alt=\"\" width=\"508\" height=\"366\" \/><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-25467\" src=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image7.gif?w=600&#038;resize=509%2C366\" alt=\"\" width=\"509\" height=\"366\" \/><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-25468\" src=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image8.gif?w=600&#038;resize=509%2C430\" alt=\"\" width=\"509\" height=\"430\" \/><\/p>\n<p><b>Distribuciones Llama Stack<\/b><\/p>\n<p><span style=\"font-weight: 400\">En julio, lanzamos una <\/span><a href=\"https:\/\/github.com\/meta-llama\/llama-stack\/issues\/6\"><span style=\"font-weight: 400\">solicitud de comentarios<\/span><\/a><span style=\"font-weight: 400\"> sobre la API Llama Stack, una interfaz estandarizada para componentes can\u00f3nicos de la cadena de herramientas (ajuste fino, generaci\u00f3n de datos sint\u00e9ticos) para personalizar los modelos Llama y construir aplicaciones ag\u00e9nticas.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Desde entonces, hemos estado trabajando duro para hacer realidad la API. Hemos creado una implementaci\u00f3n de referencia de las API para inferencia, uso de herramientas y GAR. Adem\u00e1s, hemos estado trabajando con socios para adaptarlos y convertirlos en proveedores de las API. Por \u00faltimo, hemos introducido Llama Stack Distribution como forma de empaquetar varios proveedores de API que funcionan bien juntos para ofrecer un \u00fanico punto final a los desarrolladores. Ahora compartimos con la comunidad una experiencia simplificada y coherente que les permitir\u00e1 trabajar con modelos Llama en m\u00faltiples entornos, incluidos on-prem, cloud, single-node y on-device.<\/span><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-25471\" src=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image11.png?w=948&#038;resize=541%2C584\" alt=\"\" width=\"541\" height=\"584\" srcset=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image11.png?w=1850 1850w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image11.png?w=370 370w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image11.png?w=278 278w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image11.png?w=768 768w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image11.png?w=948 948w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image11.png?w=1422 1422w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image11.png?w=999 999w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image11.png?w=555 555w\" sizes=\"auto, (max-width: 541px) 100vw, 541px\" \/><\/p>\n<p><span style=\"font-weight: 400\">El conjunto completo de versiones incluye:<\/span><\/p>\n<ol>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Llama CLI (interfaz de l\u00ednea de comandos) para construir, configurar y ejecutar distribuciones Llama Stack.<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">C\u00f3digo cliente en varios lenguajes, incluidos python, node, kotlin y swift<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Contenedores Docker para Llama Stack Distribution Server y Agents API Provider<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">M\u00faltiples distribuciones<\/span>\n<ol>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Distribuci\u00f3n Llama Stack de nodo \u00fanico a trav\u00e9s de la implementaci\u00f3n interna de Meta y Ollama<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Distribuciones de Llama Stack en la nube a trav\u00e9s de AWS, Databricks, Fireworks y Together<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Distribuci\u00f3n de Llama Stack en dispositivos iOS implementada a trav\u00e9s de PyTorch ExecuTorch<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Distribuci\u00f3n Llama Stack on-prem respaldada por Dell<\/span><\/li>\n<\/ol>\n<\/li>\n<\/ol>\n<p><span style=\"font-weight: 400\">Queremos trabajar con desarrolladores y socios para simplificar todos los aspectos de la construcci\u00f3n con modelos Llama y agradecemos sus comentarios.<\/span><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-25475\" src=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image3.png?w=960&#038;resize=557%2C499\" alt=\"\" width=\"557\" height=\"499\" srcset=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image3.png?w=1999 1999w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image3.png?w=447 447w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image3.png?w=300 300w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image3.png?w=768 768w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image3.png?w=1024 1024w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image3.png?w=1536 1536w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image3.png?w=1206 1206w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image3.png?w=670 670w, https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image3.png?w=1920 1920w\" sizes=\"auto, (max-width: 557px) 100vw, 557px\" \/><\/p>\n<p><span style=\"font-weight: 400\">Adoptar un enfoque abierto tiene muchas ventajas. Ayuda a garantizar que m\u00e1s personas de todo el mundo puedan acceder a las oportunidades que ofrece la IA, evita la concentraci\u00f3n de poder en manos de unos pocos y despliega la tecnolog\u00eda de forma m\u00e1s equitativa y segura en toda la sociedad. A medida que seguimos innovando, tambi\u00e9n queremos asegurarnos de que capacitamos a los desarrolladores para crear sistemas seguros y responsables.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Bas\u00e1ndonos en nuestra anterior publicaci\u00f3n y en nuestro esfuerzo continuo por apoyar la innovaci\u00f3n responsable, hoy a\u00f1adimos nuevas actualizaciones a nuestra familia de salvaguardas:<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">En primer lugar, lanzamos Llama Guard 3 11B Vision, dise\u00f1ado para soportar la nueva capacidad de comprensi\u00f3n de im\u00e1genes de Llama 3.2 y filtrar las solicitudes de entrada de texto+imagen o las respuestas de salida de texto a estas solicitudes.<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">En segundo lugar, al lanzar los modelos Llama 1B y 3B para su uso en entornos m\u00e1s restringidos, como los dispositivos, tambi\u00e9n hemos optimizado Llama Guard para reducir dr\u00e1sticamente su coste de despliegue. Llama Guard 3 1B se basa en el modelo Llama 3.2 1B y se ha podado y cuantizado reduciendo su tama\u00f1o de 2.858 MB a 438 MB, lo que hace que su despliegue sea m\u00e1s eficiente que nunca.<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400\">Estas nuevas soluciones est\u00e1n integradas en nuestras implementaciones de referencia, demostraciones y aplicaciones, y est\u00e1n listas para que la comunidad de c\u00f3digo abierto las utilice desde el primer d\u00eda.<\/span><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-25477\" src=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image6.gif?w=600&#038;resize=492%2C354\" alt=\"\" width=\"492\" height=\"354\" \/><\/p>\n<p><b>Prueba Llama 3.2<\/b> <b>hoy mismo<\/b><\/p>\n<p><span style=\"font-weight: 400\">Llama 3.2 est\u00e1 preparada para llegar a m\u00e1s gente que nunca y permitir nuevos e interesantes casos de uso. Creemos que no basta con compartir estos modelos con la comunidad de c\u00f3digo abierto. Queremos asegurarnos de que los desarrolladores tambi\u00e9n tienen las herramientas que necesitan para construir con Llama de forma responsable. Como parte de nuestros continuos esfuerzos de publicaci\u00f3n responsable, estamos ofreciendo a los desarrolladores nuevas<\/span><a href=\"https:\/\/ai.meta.com\/blog\/meta-llama-3-1-ai-responsibility\/\"> <span style=\"font-weight: 400\">herramientas y recursos<\/span><\/a><span style=\"font-weight: 400\">, y como siempre, actualizaremos las mejores pr\u00e1cticas en nuestra<\/span><a href=\"https:\/\/ai.meta.com\/static-resource\/responsible-use-guide\/\"> <span style=\"font-weight: 400\">Gu\u00eda de Uso Responsable<\/span><\/a><span style=\"font-weight: 400\">.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Seguimos compartiendo los \u00faltimos avances en el ecosistema Llama porque creemos que la apertura impulsa la innovaci\u00f3n y es buena para los desarrolladores, Meta y el mundo. Estamos muy contentos de continuar las conversaciones que estamos teniendo con nuestros socios y la comunidad de c\u00f3digo abierto, y como siempre, no podemos esperar a ver lo que la comunidad construye utilizando Llama 3.2 y Llama Stack.<\/span><\/p>\n<p><i><span style=\"font-weight: 400\">Este trabajo ha contado con el apoyo de nuestros socios de la comunidad de IA.<\/span><\/i> <i><span style=\"font-weight: 400\">Nos gustar\u00eda dar las gracias y reconocer (en orden alfab\u00e9tico) a:<\/span><\/i> <i><span style=\"font-weight: 400\">Accenture, AMD, Arm, AWS, Cloudflare, Databricks, Dell, Deloitte, Fireworks.ai, Google Cloud, Groq, Hugging Face, IBM watsonx, Infosys, Intel, Kaggle, Lenovo, LMSYS, MediaTek, Microsoft Azure, NVIDIA, OctoAI, Ollama, Oracle Cloud, PwC, Qualcomm, Sarvam AI, Scale AI, Snowflake, Together AI y UC Berkeley &#8211; vLLM Project.<\/span><\/i><\/p>\n","protected":false},"excerpt":{"rendered":"Estamos entusiasmados con el impacto que ha tenido el grupo de modelos Llama 3.1 en los dos meses transcurridos desde su lanzamiento, incluido el 405B, el primer modelo de IA abierta a nivel de frontera. Aunque estos modelos son incre\u00edblemente potentes, somos conscientes de que su implementaci\u00f3n requiere recursos inform\u00e1ticos y experiencia significativos. Tambi\u00e9n hemos recibido comentarios de desarrolladores que no tienen acceso a estos recursos, pero que a\u00fan as\u00ed desean la oportunidad de trabajar con Llama. Como ha compartido hoy Mark Zuckerberg en Connect, ya no tendr\u00e1n que esperar m\u00e1s. Hoy lanzamos Llama 3.2, que incluye LLM de visi\u00f3n peque\u00f1os y medianos (11B y 90B) y modelos ligeros solo de texto (1B y 3B) que se adaptan a determinados dispositivos m\u00f3viles y de borde. S\u00f3lo ha pasado un a\u00f1o y medio desde que anunciamos Llama por primera vez, y hemos hecho progresos incre\u00edbles en tan poco tiempo. Este a\u00f1o, Llama ha multiplicado por 10 su crecimiento y se ha convertido en el est\u00e1ndar de la innovaci\u00f3n responsable. Adem\u00e1s, Llama sigue siendo l\u00edder en apertura, modificabilidad y rentabilidad, y compite con los modelos cerrados, incluso a la cabeza en algunas \u00e1reas. Creemos que la apertura impulsa la innovaci\u00f3n y es el camino correcto, por eso seguimos compartiendo nuestra investigaci\u00f3n y colaborando con nuestros socios y la comunidad de desarrolladores. Los modelos de Llama 3.2 se pueden descargar en llama.com y Hugging Face, y est\u00e1n disponibles para su desarrollo inmediato en nuestro amplio ecosistema de plataformas asociadas. Los socios son una parte importante de este trabajo, y hemos trabajado con m\u00e1s de 25 empresas, entre ellas AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud y Snowflake, para habilitar los servicios desde el primer d\u00eda. Para la versi\u00f3n Llama 3.2, tambi\u00e9n estamos trabajando con los socios de dispositivos Arm, MediaTek y Qualcomm para ofrecer una amplia gama de servicios en el lanzamiento. A partir de hoy, tambi\u00e9n pondremos Llama Stack a disposici\u00f3n de la comunidad. Para m\u00e1s detalles sobre la \u00faltima versi\u00f3n, incluida informaci\u00f3n sobre la disponibilidad multimodal en Europa, consulta nuestra pol\u00edtica de uso aceptable. Conoce Llama 3.2 Los dos modelos m\u00e1s grandes de la colecci\u00f3n Llama 3.2, el 11B y el 90B, admiten casos de uso de razonamiento de im\u00e1genes, como la comprensi\u00f3n a nivel de documentos, incluidos cuadros y gr\u00e1ficos, el subtitulado de im\u00e1genes y tareas de fundamentaci\u00f3n visual, como la localizaci\u00f3n direccional de objetos en im\u00e1genes a partir de descripciones en lenguaje natural. Por ejemplo, una persona podr\u00eda preguntar en qu\u00e9 mes del a\u00f1o anterior su peque\u00f1a empresa tuvo las mejores ventas, y Llama 3.2 podr\u00eda razonar bas\u00e1ndose en un gr\u00e1fico disponible y proporcionar r\u00e1pidamente la respuesta. En otro ejemplo, el modelo podr\u00eda razonar con un mapa y ayudar a responder preguntas como cu\u00e1ndo una caminata puede volverse m\u00e1s empinada o la distancia de un sendero concreto marcada en el mapa. Los modelos 11B y 90B tambi\u00e9n pueden tender un puente entre la visi\u00f3n y el lenguaje extrayendo detalles de una imagen, comprendiendo la escena y, a continuaci\u00f3n, elaborando una o dos frases que podr\u00edan utilizarse como pie de foto para ayudar a contar la historia. Los modelos ligeros 1B y 3B tienen una gran capacidad de generaci\u00f3n de texto multiling\u00fce y de llamada a herramientas. Estos modelos permiten a los desarrolladores crear aplicaciones personalizadas, con una gran privacidad y en las que los datos nunca salen del dispositivo. Por ejemplo, una aplicaci\u00f3n de este tipo podr\u00eda ayudar a resumir los 10 \u00faltimos mensajes recibidos, extraer elementos de acci\u00f3n y aprovechar la llamada a herramientas para enviar directamente invitaciones de calendario para reuniones de seguimiento. Ejecutar estos modelos localmente tiene dos grandes ventajas. En primer lugar, las solicitudes y respuestas pueden parecer instant\u00e1neas, ya que el procesamiento se realiza localmente. En segundo lugar, al ejecutar los modelos localmente se mantiene la privacidad, ya que no se env\u00edan datos como mensajes e informaci\u00f3n del calendario a la nube, lo que hace que la aplicaci\u00f3n en general sea m\u00e1s privada. Dado que el procesamiento se realiza localmente, la aplicaci\u00f3n puede controlar claramente qu\u00e9 consultas permanecen en el dispositivo y cu\u00e1les pueden tener que ser procesadas por un modelo mayor en la nube. Evaluaci\u00f3n de los modelos Nuestra evaluaci\u00f3n sugiere que los modelos de visi\u00f3n Llama 3.2 son competitivos con los principales modelos de base, Claude 3 Haiku y GPT4o-mini en el reconocimiento de im\u00e1genes y en una serie de tareas de comprensi\u00f3n visual. El modelo 3B supera a los modelos Gemma 2 2.6B y Phi 3.5-mini en tareas como el seguimiento de instrucciones, el resumen, la reescritura de instrucciones y el uso de herramientas, mientras que el 1B es competitivo con Gemma. Evaluamos el rendimiento en m\u00e1s de 150 conjuntos de datos de referencia que abarcan una amplia gama de lenguajes. En el caso de los LLM de visi\u00f3n, evaluamos el rendimiento en pruebas de comprensi\u00f3n de im\u00e1genes y razonamiento visual. Adem\u00e1s, hemos realizado evaluaciones humanas exhaustivas que comparan Llama 3.2 con modelos de la competencia en situaciones reales.\u00a0 Modelos de visi\u00f3n Al ser los primeros modelos Llama que admiten tareas de visi\u00f3n, los modelos 11B y 90B requer\u00edan una arquitectura de modelo completamente nueva que admitiera el razonamiento por im\u00e1genes.\u00a0 Para a\u00f1adir soporte de entrada de im\u00e1genes, entrenamos un conjunto de pesos adaptadores que integran el codificador de im\u00e1genes preentrenado en el modelo de lenguaje preentrenado. El adaptador consiste en una serie de capas de atenci\u00f3n cruzada que introducen las representaciones del codificador de im\u00e1genes en el modelo de lenguaje. Entrenamos el adaptador en pares texto-imagen para alinear las representaciones de la imagen con las del lenguaje. Durante el entrenamiento del adaptador, tambi\u00e9n actualizamos los par\u00e1metros del codificador de im\u00e1genes, pero intencionadamente no actualizamos los par\u00e1metros del modelo ling\u00fc\u00edstico. De este modo, mantenemos intactas todas las funciones de s\u00f3lo texto y proporcionamos a los desarrolladores un sustituto directo para los modelos Llama 3.1.\u00a0\u00a0 Nuestro proceso de formaci\u00f3n consta de varias etapas, partiendo de modelos de texto Llama 3.1 preformados. En primer lugar, a\u00f1adimos adaptadores y codificadores de im\u00e1genes y, a continuaci\u00f3n, realizamos un preentrenamiento con datos de pares ruidosos (imagen, texto) a gran escala. A continuaci\u00f3n, realizamos el entrenamiento con datos de pares (imagen, texto) a media escala de alta calidad en el dominio y mejorados por el conocimiento. En el postentrenamiento, utilizamos una receta similar a la de los modelos de texto, realizando varias rondas de alineaci\u00f3n sobre ajuste fino supervisado, muestreo de rechazo y optimizaci\u00f3n directa de preferencias. Aprovechamos la generaci\u00f3n de datos sint\u00e9ticos mediante el modelo Llama 3.1 para filtrar y aumentar las preguntas y respuestas sobre im\u00e1genes del dominio, y utilizamos un modelo de recompensa para clasificar todas las respuestas candidatas con el fin de proporcionar datos de ajuste de alta calidad. Tambi\u00e9n a\u00f1adimos datos de mitigaci\u00f3n de la seguridad para producir un modelo con un alto nivel de seguridad al tiempo que se conserva la utilidad del modo.\u00a0 El resultado final es un conjunto de modelos que pueden aceptar tanto mensajes de imagen como de texto, y que comprenden y razonan profundamente sobre la combinaci\u00f3n. Se trata de un paso m\u00e1s para que los modelos Llama tengan capacidades agenticas a\u00fan m\u00e1s ricas.\u00a0 Modelos ligeros Como hemos compartido sobre Llama 3.1, los potentes modelos de profesores pueden aprovecharse para crear modelos m\u00e1s peque\u00f1os con un rendimiento mejorado. Hemos utilizado dos m\u00e9todos -la poda y la destilaci\u00f3n- en los modelos 1B y 3B, convirti\u00e9ndolos en los primeros modelos Llama ligeros de gran capacidad que caben en dispositivos de forma eficiente.\u00a0 La poda nos ha permitido reducir el tama\u00f1o de los modelos existentes en la manada Llama, recuperando al mismo tiempo todo el conocimiento y el rendimiento posibles. Para los modelos 1B y 3B, adoptamos el enfoque de utilizar la poda estructurada de una sola vez a partir del Llama 3.1 8B. Esto implic\u00f3 eliminar sistem\u00e1ticamente partes de la red y ajustar la magnitud de los pesos y gradientes para crear un modelo m\u00e1s peque\u00f1o y eficiente que conserve el rendimiento de la red original. La destilaci\u00f3n de conocimientos utiliza una red m\u00e1s grande para impartir conocimientos en una red m\u00e1s peque\u00f1a, con la idea de que un modelo m\u00e1s peque\u00f1o puede lograr un mejor rendimiento utilizando un maestro que el que podr\u00eda lograr partiendo de cero. Para los modelos 1B y 3B de Llama 3.2, incorporamos logits de los modelos 8B y 70B de Llama 3.1 en la fase de preentrenamiento del desarrollo del modelo, en la que los resultados (logits) de estos modelos m\u00e1s grandes se utilizaron como objetivos a nivel de token. La destilaci\u00f3n de conocimientos se utiliz\u00f3 despu\u00e9s de la poda para recuperar el rendimiento. En el post-entrenamiento, utilizamos una receta similar a la de Llama 3.1 y producimos modelos de chat finales realizando varias rondas de alineaci\u00f3n sobre el modelo pre-entrenado. Cada ronda implica un ajuste fino supervisado (SFT), un muestreo de rechazo (RS) y una optimizaci\u00f3n directa de preferencias (DPO). En el postentrenamiento, ampliamos el soporte de longitud de contexto a 128.000 tokens, manteniendo la misma calidad que el modelo preentrenado. Tambi\u00e9n generamos datos sint\u00e9ticos que procesamos y filtramos cuidadosamente para garantizar una alta calidad. Mezclamos cuidadosamente los datos para optimizar la alta calidad en m\u00faltiples capacidades como el resumen, la reescritura, el seguimiento de instrucciones, el razonamiento ling\u00fc\u00edstico y el uso de herramientas. Para que la comunidad pueda innovar en estos modelos, hemos trabajado en estrecha colaboraci\u00f3n con Qualcomm y Mediatek, las dos principales empresas de sistemas m\u00f3viles en un chip (SoC) del mundo, y Arm, que proporciona la plataforma inform\u00e1tica fundamental para el 99% de los dispositivos m\u00f3viles. Las ponderaciones que se publican hoy se basan en n\u00fameros BFloat16. Nuestros equipos est\u00e1n explorando variantes cuantizadas que funcionen a\u00fan m\u00e1s r\u00e1pido, y esperamos compartir m\u00e1s sobre esto pronto. Distribuciones Llama Stack En julio, lanzamos una solicitud de comentarios sobre la API Llama Stack, una interfaz estandarizada para componentes can\u00f3nicos de la cadena de herramientas (ajuste fino, generaci\u00f3n de datos sint\u00e9ticos) para personalizar los modelos Llama y construir aplicaciones ag\u00e9nticas. Desde entonces, hemos estado trabajando duro para hacer realidad la API. Hemos creado una implementaci\u00f3n de referencia de las API para inferencia, uso de herramientas y GAR. Adem\u00e1s, hemos estado trabajando con socios para adaptarlos y convertirlos en proveedores de las API. Por \u00faltimo, hemos introducido Llama Stack Distribution como forma de empaquetar varios proveedores de API que funcionan bien juntos para ofrecer un \u00fanico punto final a los desarrolladores. Ahora compartimos con la comunidad una experiencia simplificada y coherente que les permitir\u00e1 trabajar con modelos Llama en m\u00faltiples entornos, incluidos on-prem, cloud, single-node y on-device. El conjunto completo de versiones incluye: Llama CLI (interfaz de l\u00ednea de comandos) para construir, configurar y ejecutar distribuciones Llama Stack. C\u00f3digo cliente en varios lenguajes, incluidos python, node, kotlin y swift Contenedores Docker para Llama Stack Distribution Server y Agents API Provider M\u00faltiples distribuciones Distribuci\u00f3n Llama Stack de nodo \u00fanico a trav\u00e9s de la implementaci\u00f3n interna de Meta y Ollama Distribuciones de Llama Stack en la nube a trav\u00e9s de AWS, Databricks, Fireworks y Together Distribuci\u00f3n de Llama Stack en dispositivos iOS implementada a trav\u00e9s de PyTorch ExecuTorch Distribuci\u00f3n Llama Stack on-prem respaldada por Dell Queremos trabajar con desarrolladores y socios para simplificar todos los aspectos de la construcci\u00f3n con modelos Llama y agradecemos sus comentarios. Adoptar un enfoque abierto tiene muchas ventajas. Ayuda a garantizar que m\u00e1s personas de todo el mundo puedan acceder a las oportunidades que ofrece la IA, evita la concentraci\u00f3n de poder en manos de unos pocos y despliega la tecnolog\u00eda de forma m\u00e1s equitativa y segura en toda la sociedad. A medida que seguimos innovando, tambi\u00e9n queremos asegurarnos de que capacitamos a los desarrolladores para crear sistemas seguros y responsables. Bas\u00e1ndonos en nuestra anterior publicaci\u00f3n y en nuestro esfuerzo continuo por apoyar la innovaci\u00f3n responsable, hoy a\u00f1adimos nuevas actualizaciones a nuestra familia de salvaguardas: En primer lugar, lanzamos Llama Guard 3 11B Vision, dise\u00f1ado para soportar la nueva capacidad de comprensi\u00f3n de im\u00e1genes de Llama 3.2 y filtrar las solicitudes de entrada de texto+imagen o las respuestas de salida de texto a estas solicitudes. En segundo lugar, al lanzar los modelos Llama 1B y 3B para su uso en entornos m\u00e1s restringidos, como los dispositivos, tambi\u00e9n hemos optimizado Llama Guard para reducir dr\u00e1sticamente su coste de despliegue. Llama Guard 3 1B se basa en el modelo Llama 3.2 1B y se ha podado y cuantizado reduciendo su tama\u00f1o de 2.858 MB a 438 MB, lo que hace que su despliegue sea m\u00e1s eficiente que nunca. Estas nuevas soluciones est\u00e1n integradas en nuestras implementaciones de referencia, demostraciones y aplicaciones, y est\u00e1n listas para que la comunidad de c\u00f3digo abierto las utilice desde el primer d\u00eda. Prueba Llama 3.2 hoy mismo Llama 3.2 est\u00e1 preparada para llegar a m\u00e1s gente que nunca y permitir nuevos e interesantes casos de uso. Creemos que no basta con compartir estos modelos con la comunidad de c\u00f3digo abierto. Queremos asegurarnos de que los desarrolladores tambi\u00e9n tienen las herramientas que necesitan para construir con Llama de forma responsable. Como parte de nuestros continuos esfuerzos de publicaci\u00f3n responsable, estamos ofreciendo a los desarrolladores nuevas herramientas y recursos, y como siempre, actualizaremos las mejores pr\u00e1cticas en nuestra Gu\u00eda de Uso Responsable. Seguimos compartiendo los \u00faltimos avances en el ecosistema Llama porque creemos que la apertura impulsa la innovaci\u00f3n y es buena para los desarrolladores, Meta y el mundo. Estamos muy contentos de continuar las conversaciones que estamos teniendo con nuestros socios y la comunidad de c\u00f3digo abierto, y como siempre, no podemos esperar a ver lo que la comunidad construye utilizando Llama 3.2 y Llama Stack. Este trabajo ha contado con el apoyo de nuestros socios de la comunidad de IA. Nos gustar\u00eda dar las gracias y reconocer (en orden alfab\u00e9tico) a: Accenture, AMD, Arm, AWS, Cloudflare, Databricks, Dell, Deloitte, Fireworks.ai, Google Cloud, Groq, Hugging Face, IBM watsonx, Infosys, Intel, Kaggle, Lenovo, LMSYS, MediaTek, Microsoft Azure, NVIDIA, OctoAI, Ollama, Oracle Cloud, PwC, Qualcomm, Sarvam AI, Scale AI, Snowflake, Together AI y UC Berkeley &#8211; vLLM Project.","protected":false},"author":164097050,"featured_media":25465,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[243948263,243947986,30660046,243948117],"tags":[],"class_list":["post-25441","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ia","category-innovacion","category-noticias-de-la-empresa","category-tecnologia-e-innovacion"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.2 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Llama 3.2: revolucionando la IA y la visi\u00f3n de vanguardia con modelos abiertos y personalizables | Acerca de Meta<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Llama 3.2: revolucionando la IA y la visi\u00f3n de vanguardia con modelos abiertos y personalizables | Acerca de Meta\" \/>\n<meta property=\"og:description\" content=\"Estamos entusiasmados con el impacto que ha tenido el grupo de modelos Llama 3.1 en los dos meses transcurridos desde su lanzamiento, incluido el 405B, el primer modelo de IA abierta a nivel de frontera. Aunque estos modelos son incre\u00edblemente potentes, somos conscientes de que su implementaci\u00f3n requiere recursos inform\u00e1ticos y experiencia significativos. Tambi\u00e9n hemos recibido comentarios de desarrolladores que no tienen acceso a estos recursos, pero que a\u00fan as\u00ed desean la oportunidad de trabajar con Llama. Como ha compartido hoy Mark Zuckerberg en Connect, ya no tendr\u00e1n que esperar m\u00e1s. Hoy lanzamos Llama 3.2, que incluye LLM de visi\u00f3n peque\u00f1os y medianos (11B y 90B) y modelos ligeros solo de texto (1B y 3B) que se adaptan a determinados dispositivos m\u00f3viles y de borde. S\u00f3lo ha pasado un a\u00f1o y medio desde que anunciamos Llama por primera vez, y hemos hecho progresos incre\u00edbles en tan poco tiempo. Este a\u00f1o, Llama ha multiplicado por 10 su crecimiento y se ha convertido en el est\u00e1ndar de la innovaci\u00f3n responsable. Adem\u00e1s, Llama sigue siendo l\u00edder en apertura, modificabilidad y rentabilidad, y compite con los modelos cerrados, incluso a la cabeza en algunas \u00e1reas. Creemos que la apertura impulsa la innovaci\u00f3n y es el camino correcto, por eso seguimos compartiendo nuestra investigaci\u00f3n y colaborando con nuestros socios y la comunidad de desarrolladores. Los modelos de Llama 3.2 se pueden descargar en llama.com y Hugging Face, y est\u00e1n disponibles para su desarrollo inmediato en nuestro amplio ecosistema de plataformas asociadas. Los socios son una parte importante de este trabajo, y hemos trabajado con m\u00e1s de 25 empresas, entre ellas AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud y Snowflake, para habilitar los servicios desde el primer d\u00eda. Para la versi\u00f3n Llama 3.2, tambi\u00e9n estamos trabajando con los socios de dispositivos Arm, MediaTek y Qualcomm para ofrecer una amplia gama de servicios en el lanzamiento. A partir de hoy, tambi\u00e9n pondremos Llama Stack a disposici\u00f3n de la comunidad. Para m\u00e1s detalles sobre la \u00faltima versi\u00f3n, incluida informaci\u00f3n sobre la disponibilidad multimodal en Europa, consulta nuestra pol\u00edtica de uso aceptable. Conoce Llama 3.2 Los dos modelos m\u00e1s grandes de la colecci\u00f3n Llama 3.2, el 11B y el 90B, admiten casos de uso de razonamiento de im\u00e1genes, como la comprensi\u00f3n a nivel de documentos, incluidos cuadros y gr\u00e1ficos, el subtitulado de im\u00e1genes y tareas de fundamentaci\u00f3n visual, como la localizaci\u00f3n direccional de objetos en im\u00e1genes a partir de descripciones en lenguaje natural. Por ejemplo, una persona podr\u00eda preguntar en qu\u00e9 mes del a\u00f1o anterior su peque\u00f1a empresa tuvo las mejores ventas, y Llama 3.2 podr\u00eda razonar bas\u00e1ndose en un gr\u00e1fico disponible y proporcionar r\u00e1pidamente la respuesta. En otro ejemplo, el modelo podr\u00eda razonar con un mapa y ayudar a responder preguntas como cu\u00e1ndo una caminata puede volverse m\u00e1s empinada o la distancia de un sendero concreto marcada en el mapa. Los modelos 11B y 90B tambi\u00e9n pueden tender un puente entre la visi\u00f3n y el lenguaje extrayendo detalles de una imagen, comprendiendo la escena y, a continuaci\u00f3n, elaborando una o dos frases que podr\u00edan utilizarse como pie de foto para ayudar a contar la historia. Los modelos ligeros 1B y 3B tienen una gran capacidad de generaci\u00f3n de texto multiling\u00fce y de llamada a herramientas. Estos modelos permiten a los desarrolladores crear aplicaciones personalizadas, con una gran privacidad y en las que los datos nunca salen del dispositivo. Por ejemplo, una aplicaci\u00f3n de este tipo podr\u00eda ayudar a resumir los 10 \u00faltimos mensajes recibidos, extraer elementos de acci\u00f3n y aprovechar la llamada a herramientas para enviar directamente invitaciones de calendario para reuniones de seguimiento. Ejecutar estos modelos localmente tiene dos grandes ventajas. En primer lugar, las solicitudes y respuestas pueden parecer instant\u00e1neas, ya que el procesamiento se realiza localmente. En segundo lugar, al ejecutar los modelos localmente se mantiene la privacidad, ya que no se env\u00edan datos como mensajes e informaci\u00f3n del calendario a la nube, lo que hace que la aplicaci\u00f3n en general sea m\u00e1s privada. Dado que el procesamiento se realiza localmente, la aplicaci\u00f3n puede controlar claramente qu\u00e9 consultas permanecen en el dispositivo y cu\u00e1les pueden tener que ser procesadas por un modelo mayor en la nube. Evaluaci\u00f3n de los modelos Nuestra evaluaci\u00f3n sugiere que los modelos de visi\u00f3n Llama 3.2 son competitivos con los principales modelos de base, Claude 3 Haiku y GPT4o-mini en el reconocimiento de im\u00e1genes y en una serie de tareas de comprensi\u00f3n visual. El modelo 3B supera a los modelos Gemma 2 2.6B y Phi 3.5-mini en tareas como el seguimiento de instrucciones, el resumen, la reescritura de instrucciones y el uso de herramientas, mientras que el 1B es competitivo con Gemma. Evaluamos el rendimiento en m\u00e1s de 150 conjuntos de datos de referencia que abarcan una amplia gama de lenguajes. En el caso de los LLM de visi\u00f3n, evaluamos el rendimiento en pruebas de comprensi\u00f3n de im\u00e1genes y razonamiento visual. Adem\u00e1s, hemos realizado evaluaciones humanas exhaustivas que comparan Llama 3.2 con modelos de la competencia en situaciones reales.\u00a0 Modelos de visi\u00f3n Al ser los primeros modelos Llama que admiten tareas de visi\u00f3n, los modelos 11B y 90B requer\u00edan una arquitectura de modelo completamente nueva que admitiera el razonamiento por im\u00e1genes.\u00a0 Para a\u00f1adir soporte de entrada de im\u00e1genes, entrenamos un conjunto de pesos adaptadores que integran el codificador de im\u00e1genes preentrenado en el modelo de lenguaje preentrenado. El adaptador consiste en una serie de capas de atenci\u00f3n cruzada que introducen las representaciones del codificador de im\u00e1genes en el modelo de lenguaje. Entrenamos el adaptador en pares texto-imagen para alinear las representaciones de la imagen con las del lenguaje. Durante el entrenamiento del adaptador, tambi\u00e9n actualizamos los par\u00e1metros del codificador de im\u00e1genes, pero intencionadamente no actualizamos los par\u00e1metros del modelo ling\u00fc\u00edstico. De este modo, mantenemos intactas todas las funciones de s\u00f3lo texto y proporcionamos a los desarrolladores un sustituto directo para los modelos Llama 3.1.\u00a0\u00a0 Nuestro proceso de formaci\u00f3n consta de varias etapas, partiendo de modelos de texto Llama 3.1 preformados. En primer lugar, a\u00f1adimos adaptadores y codificadores de im\u00e1genes y, a continuaci\u00f3n, realizamos un preentrenamiento con datos de pares ruidosos (imagen, texto) a gran escala. A continuaci\u00f3n, realizamos el entrenamiento con datos de pares (imagen, texto) a media escala de alta calidad en el dominio y mejorados por el conocimiento. En el postentrenamiento, utilizamos una receta similar a la de los modelos de texto, realizando varias rondas de alineaci\u00f3n sobre ajuste fino supervisado, muestreo de rechazo y optimizaci\u00f3n directa de preferencias. Aprovechamos la generaci\u00f3n de datos sint\u00e9ticos mediante el modelo Llama 3.1 para filtrar y aumentar las preguntas y respuestas sobre im\u00e1genes del dominio, y utilizamos un modelo de recompensa para clasificar todas las respuestas candidatas con el fin de proporcionar datos de ajuste de alta calidad. Tambi\u00e9n a\u00f1adimos datos de mitigaci\u00f3n de la seguridad para producir un modelo con un alto nivel de seguridad al tiempo que se conserva la utilidad del modo.\u00a0 El resultado final es un conjunto de modelos que pueden aceptar tanto mensajes de imagen como de texto, y que comprenden y razonan profundamente sobre la combinaci\u00f3n. Se trata de un paso m\u00e1s para que los modelos Llama tengan capacidades agenticas a\u00fan m\u00e1s ricas.\u00a0 Modelos ligeros Como hemos compartido sobre Llama 3.1, los potentes modelos de profesores pueden aprovecharse para crear modelos m\u00e1s peque\u00f1os con un rendimiento mejorado. Hemos utilizado dos m\u00e9todos -la poda y la destilaci\u00f3n- en los modelos 1B y 3B, convirti\u00e9ndolos en los primeros modelos Llama ligeros de gran capacidad que caben en dispositivos de forma eficiente.\u00a0 La poda nos ha permitido reducir el tama\u00f1o de los modelos existentes en la manada Llama, recuperando al mismo tiempo todo el conocimiento y el rendimiento posibles. Para los modelos 1B y 3B, adoptamos el enfoque de utilizar la poda estructurada de una sola vez a partir del Llama 3.1 8B. Esto implic\u00f3 eliminar sistem\u00e1ticamente partes de la red y ajustar la magnitud de los pesos y gradientes para crear un modelo m\u00e1s peque\u00f1o y eficiente que conserve el rendimiento de la red original. La destilaci\u00f3n de conocimientos utiliza una red m\u00e1s grande para impartir conocimientos en una red m\u00e1s peque\u00f1a, con la idea de que un modelo m\u00e1s peque\u00f1o puede lograr un mejor rendimiento utilizando un maestro que el que podr\u00eda lograr partiendo de cero. Para los modelos 1B y 3B de Llama 3.2, incorporamos logits de los modelos 8B y 70B de Llama 3.1 en la fase de preentrenamiento del desarrollo del modelo, en la que los resultados (logits) de estos modelos m\u00e1s grandes se utilizaron como objetivos a nivel de token. La destilaci\u00f3n de conocimientos se utiliz\u00f3 despu\u00e9s de la poda para recuperar el rendimiento. En el post-entrenamiento, utilizamos una receta similar a la de Llama 3.1 y producimos modelos de chat finales realizando varias rondas de alineaci\u00f3n sobre el modelo pre-entrenado. Cada ronda implica un ajuste fino supervisado (SFT), un muestreo de rechazo (RS) y una optimizaci\u00f3n directa de preferencias (DPO). En el postentrenamiento, ampliamos el soporte de longitud de contexto a 128.000 tokens, manteniendo la misma calidad que el modelo preentrenado. Tambi\u00e9n generamos datos sint\u00e9ticos que procesamos y filtramos cuidadosamente para garantizar una alta calidad. Mezclamos cuidadosamente los datos para optimizar la alta calidad en m\u00faltiples capacidades como el resumen, la reescritura, el seguimiento de instrucciones, el razonamiento ling\u00fc\u00edstico y el uso de herramientas. Para que la comunidad pueda innovar en estos modelos, hemos trabajado en estrecha colaboraci\u00f3n con Qualcomm y Mediatek, las dos principales empresas de sistemas m\u00f3viles en un chip (SoC) del mundo, y Arm, que proporciona la plataforma inform\u00e1tica fundamental para el 99% de los dispositivos m\u00f3viles. Las ponderaciones que se publican hoy se basan en n\u00fameros BFloat16. Nuestros equipos est\u00e1n explorando variantes cuantizadas que funcionen a\u00fan m\u00e1s r\u00e1pido, y esperamos compartir m\u00e1s sobre esto pronto. Distribuciones Llama Stack En julio, lanzamos una solicitud de comentarios sobre la API Llama Stack, una interfaz estandarizada para componentes can\u00f3nicos de la cadena de herramientas (ajuste fino, generaci\u00f3n de datos sint\u00e9ticos) para personalizar los modelos Llama y construir aplicaciones ag\u00e9nticas. Desde entonces, hemos estado trabajando duro para hacer realidad la API. Hemos creado una implementaci\u00f3n de referencia de las API para inferencia, uso de herramientas y GAR. Adem\u00e1s, hemos estado trabajando con socios para adaptarlos y convertirlos en proveedores de las API. Por \u00faltimo, hemos introducido Llama Stack Distribution como forma de empaquetar varios proveedores de API que funcionan bien juntos para ofrecer un \u00fanico punto final a los desarrolladores. Ahora compartimos con la comunidad una experiencia simplificada y coherente que les permitir\u00e1 trabajar con modelos Llama en m\u00faltiples entornos, incluidos on-prem, cloud, single-node y on-device. El conjunto completo de versiones incluye: Llama CLI (interfaz de l\u00ednea de comandos) para construir, configurar y ejecutar distribuciones Llama Stack. C\u00f3digo cliente en varios lenguajes, incluidos python, node, kotlin y swift Contenedores Docker para Llama Stack Distribution Server y Agents API Provider M\u00faltiples distribuciones Distribuci\u00f3n Llama Stack de nodo \u00fanico a trav\u00e9s de la implementaci\u00f3n interna de Meta y Ollama Distribuciones de Llama Stack en la nube a trav\u00e9s de AWS, Databricks, Fireworks y Together Distribuci\u00f3n de Llama Stack en dispositivos iOS implementada a trav\u00e9s de PyTorch ExecuTorch Distribuci\u00f3n Llama Stack on-prem respaldada por Dell Queremos trabajar con desarrolladores y socios para simplificar todos los aspectos de la construcci\u00f3n con modelos Llama y agradecemos sus comentarios. Adoptar un enfoque abierto tiene muchas ventajas. Ayuda a garantizar que m\u00e1s personas de todo el mundo puedan acceder a las oportunidades que ofrece la IA, evita la concentraci\u00f3n de poder en manos de unos pocos y despliega la tecnolog\u00eda de forma m\u00e1s equitativa y segura en toda la sociedad. A medida que seguimos innovando, tambi\u00e9n queremos asegurarnos de que capacitamos a los desarrolladores para crear sistemas seguros y responsables. Bas\u00e1ndonos en nuestra anterior publicaci\u00f3n y en nuestro esfuerzo continuo por apoyar la innovaci\u00f3n responsable, hoy a\u00f1adimos nuevas actualizaciones a nuestra familia de salvaguardas: En primer lugar, lanzamos Llama Guard 3 11B Vision, dise\u00f1ado para soportar la nueva capacidad de comprensi\u00f3n de im\u00e1genes de Llama 3.2 y filtrar las solicitudes de entrada de texto+imagen o las respuestas de salida de texto a estas solicitudes. En segundo lugar, al lanzar los modelos Llama 1B y 3B para su uso en entornos m\u00e1s restringidos, como los dispositivos, tambi\u00e9n hemos optimizado Llama Guard para reducir dr\u00e1sticamente su coste de despliegue. Llama Guard 3 1B se basa en el modelo Llama 3.2 1B y se ha podado y cuantizado reduciendo su tama\u00f1o de 2.858 MB a 438 MB, lo que hace que su despliegue sea m\u00e1s eficiente que nunca. Estas nuevas soluciones est\u00e1n integradas en nuestras implementaciones de referencia, demostraciones y aplicaciones, y est\u00e1n listas para que la comunidad de c\u00f3digo abierto las utilice desde el primer d\u00eda. Prueba Llama 3.2 hoy mismo Llama 3.2 est\u00e1 preparada para llegar a m\u00e1s gente que nunca y permitir nuevos e interesantes casos de uso. Creemos que no basta con compartir estos modelos con la comunidad de c\u00f3digo abierto. Queremos asegurarnos de que los desarrolladores tambi\u00e9n tienen las herramientas que necesitan para construir con Llama de forma responsable. Como parte de nuestros continuos esfuerzos de publicaci\u00f3n responsable, estamos ofreciendo a los desarrolladores nuevas herramientas y recursos, y como siempre, actualizaremos las mejores pr\u00e1cticas en nuestra Gu\u00eda de Uso Responsable. Seguimos compartiendo los \u00faltimos avances en el ecosistema Llama porque creemos que la apertura impulsa la innovaci\u00f3n y es buena para los desarrolladores, Meta y el mundo. Estamos muy contentos de continuar las conversaciones que estamos teniendo con nuestros socios y la comunidad de c\u00f3digo abierto, y como siempre, no podemos esperar a ver lo que la comunidad construye utilizando Llama 3.2 y Llama Stack. Este trabajo ha contado con el apoyo de nuestros socios de la comunidad de IA. Nos gustar\u00eda dar las gracias y reconocer (en orden alfab\u00e9tico) a: Accenture, AMD, Arm, AWS, Cloudflare, Databricks, Dell, Deloitte, Fireworks.ai, Google Cloud, Groq, Hugging Face, IBM watsonx, Infosys, Intel, Kaggle, Lenovo, LMSYS, MediaTek, Microsoft Azure, NVIDIA, OctoAI, Ollama, Oracle Cloud, PwC, Qualcomm, Sarvam AI, Scale AI, Snowflake, Together AI y UC Berkeley &#8211; vLLM Project.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/\" \/>\n<meta property=\"og:site_name\" content=\"Acerca de Meta\" \/>\n<meta property=\"article:published_time\" content=\"2024-09-25T17:30:09+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image2.png?resize=1024,576\" \/>\n\t<meta property=\"og:image:width\" content=\"1024\" \/>\n\t<meta property=\"og:image:height\" content=\"576\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"milenaherreraCO\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data1\" content=\"Meta\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data2\" content=\"13 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/\"},\"author\":\"Facebook company\",\"headline\":\"Llama 3.2: revolucionando la IA y la visi\u00f3n de vanguardia con modelos abiertos y personalizables\",\"datePublished\":\"2024-09-25T17:30:09+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/\"},\"wordCount\":2512,\"publisher\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/#organization\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image2.png?fit=1999%2C1125\",\"articleSection\":[\"IA\",\"Innovaci\u00f3n\",\"Noticias de la Empresa\",\"Tecnolog\u00eda e Innovaci\u00f3n\"],\"inLanguage\":\"es\"},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/\",\"url\":\"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/\",\"name\":\"Llama 3.2: revolucionando la IA y la visi\u00f3n de vanguardia con modelos abiertos y personalizables | Acerca de Meta\",\"isPartOf\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image2.png?fit=1999%2C1125\",\"datePublished\":\"2024-09-25T17:30:09+00:00\",\"breadcrumb\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/\"]}],\"author\":\"Acerca de Meta\"},{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/#primaryimage\",\"url\":\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image2.png?fit=1999%2C1125\",\"contentUrl\":\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image2.png?fit=1999%2C1125\",\"width\":1999,\"height\":1125},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/about.fb.com\/ltam\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Llama 3.2: revolucionando la IA y la visi\u00f3n de vanguardia con modelos abiertos y personalizables\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/about.fb.com\/ltam\/#website\",\"url\":\"https:\/\/about.fb.com\/news\/\",\"name\":\"Acerca de Meta\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/about.fb.com\/ltam\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"es\",\"alternateName\":[\"Meta Newsroom\",\"Meta\"]},{\"@type\":\"Organization\",\"@id\":\"https:\/\/about.fb.com\/ltam\/#organization\",\"name\":\"Meta\",\"url\":\"https:\/\/about.fb.com\/ltam\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/about.fb.com\/ltam\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500\",\"contentUrl\":\"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500\",\"width\":8000,\"height\":4500,\"caption\":\"Meta\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/ltam\/#\/schema\/logo\/image\/\"}}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Llama 3.2: revolucionando la IA y la visi\u00f3n de vanguardia con modelos abiertos y personalizables | Acerca de Meta","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/","og_locale":"es_ES","og_type":"article","og_title":"Llama 3.2: revolucionando la IA y la visi\u00f3n de vanguardia con modelos abiertos y personalizables | Acerca de Meta","og_description":"Estamos entusiasmados con el impacto que ha tenido el grupo de modelos Llama 3.1 en los dos meses transcurridos desde su lanzamiento, incluido el 405B, el primer modelo de IA abierta a nivel de frontera. Aunque estos modelos son incre\u00edblemente potentes, somos conscientes de que su implementaci\u00f3n requiere recursos inform\u00e1ticos y experiencia significativos. Tambi\u00e9n hemos recibido comentarios de desarrolladores que no tienen acceso a estos recursos, pero que a\u00fan as\u00ed desean la oportunidad de trabajar con Llama. Como ha compartido hoy Mark Zuckerberg en Connect, ya no tendr\u00e1n que esperar m\u00e1s. Hoy lanzamos Llama 3.2, que incluye LLM de visi\u00f3n peque\u00f1os y medianos (11B y 90B) y modelos ligeros solo de texto (1B y 3B) que se adaptan a determinados dispositivos m\u00f3viles y de borde. S\u00f3lo ha pasado un a\u00f1o y medio desde que anunciamos Llama por primera vez, y hemos hecho progresos incre\u00edbles en tan poco tiempo. Este a\u00f1o, Llama ha multiplicado por 10 su crecimiento y se ha convertido en el est\u00e1ndar de la innovaci\u00f3n responsable. Adem\u00e1s, Llama sigue siendo l\u00edder en apertura, modificabilidad y rentabilidad, y compite con los modelos cerrados, incluso a la cabeza en algunas \u00e1reas. Creemos que la apertura impulsa la innovaci\u00f3n y es el camino correcto, por eso seguimos compartiendo nuestra investigaci\u00f3n y colaborando con nuestros socios y la comunidad de desarrolladores. Los modelos de Llama 3.2 se pueden descargar en llama.com y Hugging Face, y est\u00e1n disponibles para su desarrollo inmediato en nuestro amplio ecosistema de plataformas asociadas. Los socios son una parte importante de este trabajo, y hemos trabajado con m\u00e1s de 25 empresas, entre ellas AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud y Snowflake, para habilitar los servicios desde el primer d\u00eda. Para la versi\u00f3n Llama 3.2, tambi\u00e9n estamos trabajando con los socios de dispositivos Arm, MediaTek y Qualcomm para ofrecer una amplia gama de servicios en el lanzamiento. A partir de hoy, tambi\u00e9n pondremos Llama Stack a disposici\u00f3n de la comunidad. Para m\u00e1s detalles sobre la \u00faltima versi\u00f3n, incluida informaci\u00f3n sobre la disponibilidad multimodal en Europa, consulta nuestra pol\u00edtica de uso aceptable. Conoce Llama 3.2 Los dos modelos m\u00e1s grandes de la colecci\u00f3n Llama 3.2, el 11B y el 90B, admiten casos de uso de razonamiento de im\u00e1genes, como la comprensi\u00f3n a nivel de documentos, incluidos cuadros y gr\u00e1ficos, el subtitulado de im\u00e1genes y tareas de fundamentaci\u00f3n visual, como la localizaci\u00f3n direccional de objetos en im\u00e1genes a partir de descripciones en lenguaje natural. Por ejemplo, una persona podr\u00eda preguntar en qu\u00e9 mes del a\u00f1o anterior su peque\u00f1a empresa tuvo las mejores ventas, y Llama 3.2 podr\u00eda razonar bas\u00e1ndose en un gr\u00e1fico disponible y proporcionar r\u00e1pidamente la respuesta. En otro ejemplo, el modelo podr\u00eda razonar con un mapa y ayudar a responder preguntas como cu\u00e1ndo una caminata puede volverse m\u00e1s empinada o la distancia de un sendero concreto marcada en el mapa. Los modelos 11B y 90B tambi\u00e9n pueden tender un puente entre la visi\u00f3n y el lenguaje extrayendo detalles de una imagen, comprendiendo la escena y, a continuaci\u00f3n, elaborando una o dos frases que podr\u00edan utilizarse como pie de foto para ayudar a contar la historia. Los modelos ligeros 1B y 3B tienen una gran capacidad de generaci\u00f3n de texto multiling\u00fce y de llamada a herramientas. Estos modelos permiten a los desarrolladores crear aplicaciones personalizadas, con una gran privacidad y en las que los datos nunca salen del dispositivo. Por ejemplo, una aplicaci\u00f3n de este tipo podr\u00eda ayudar a resumir los 10 \u00faltimos mensajes recibidos, extraer elementos de acci\u00f3n y aprovechar la llamada a herramientas para enviar directamente invitaciones de calendario para reuniones de seguimiento. Ejecutar estos modelos localmente tiene dos grandes ventajas. En primer lugar, las solicitudes y respuestas pueden parecer instant\u00e1neas, ya que el procesamiento se realiza localmente. En segundo lugar, al ejecutar los modelos localmente se mantiene la privacidad, ya que no se env\u00edan datos como mensajes e informaci\u00f3n del calendario a la nube, lo que hace que la aplicaci\u00f3n en general sea m\u00e1s privada. Dado que el procesamiento se realiza localmente, la aplicaci\u00f3n puede controlar claramente qu\u00e9 consultas permanecen en el dispositivo y cu\u00e1les pueden tener que ser procesadas por un modelo mayor en la nube. Evaluaci\u00f3n de los modelos Nuestra evaluaci\u00f3n sugiere que los modelos de visi\u00f3n Llama 3.2 son competitivos con los principales modelos de base, Claude 3 Haiku y GPT4o-mini en el reconocimiento de im\u00e1genes y en una serie de tareas de comprensi\u00f3n visual. El modelo 3B supera a los modelos Gemma 2 2.6B y Phi 3.5-mini en tareas como el seguimiento de instrucciones, el resumen, la reescritura de instrucciones y el uso de herramientas, mientras que el 1B es competitivo con Gemma. Evaluamos el rendimiento en m\u00e1s de 150 conjuntos de datos de referencia que abarcan una amplia gama de lenguajes. En el caso de los LLM de visi\u00f3n, evaluamos el rendimiento en pruebas de comprensi\u00f3n de im\u00e1genes y razonamiento visual. Adem\u00e1s, hemos realizado evaluaciones humanas exhaustivas que comparan Llama 3.2 con modelos de la competencia en situaciones reales.\u00a0 Modelos de visi\u00f3n Al ser los primeros modelos Llama que admiten tareas de visi\u00f3n, los modelos 11B y 90B requer\u00edan una arquitectura de modelo completamente nueva que admitiera el razonamiento por im\u00e1genes.\u00a0 Para a\u00f1adir soporte de entrada de im\u00e1genes, entrenamos un conjunto de pesos adaptadores que integran el codificador de im\u00e1genes preentrenado en el modelo de lenguaje preentrenado. El adaptador consiste en una serie de capas de atenci\u00f3n cruzada que introducen las representaciones del codificador de im\u00e1genes en el modelo de lenguaje. Entrenamos el adaptador en pares texto-imagen para alinear las representaciones de la imagen con las del lenguaje. Durante el entrenamiento del adaptador, tambi\u00e9n actualizamos los par\u00e1metros del codificador de im\u00e1genes, pero intencionadamente no actualizamos los par\u00e1metros del modelo ling\u00fc\u00edstico. De este modo, mantenemos intactas todas las funciones de s\u00f3lo texto y proporcionamos a los desarrolladores un sustituto directo para los modelos Llama 3.1.\u00a0\u00a0 Nuestro proceso de formaci\u00f3n consta de varias etapas, partiendo de modelos de texto Llama 3.1 preformados. En primer lugar, a\u00f1adimos adaptadores y codificadores de im\u00e1genes y, a continuaci\u00f3n, realizamos un preentrenamiento con datos de pares ruidosos (imagen, texto) a gran escala. A continuaci\u00f3n, realizamos el entrenamiento con datos de pares (imagen, texto) a media escala de alta calidad en el dominio y mejorados por el conocimiento. En el postentrenamiento, utilizamos una receta similar a la de los modelos de texto, realizando varias rondas de alineaci\u00f3n sobre ajuste fino supervisado, muestreo de rechazo y optimizaci\u00f3n directa de preferencias. Aprovechamos la generaci\u00f3n de datos sint\u00e9ticos mediante el modelo Llama 3.1 para filtrar y aumentar las preguntas y respuestas sobre im\u00e1genes del dominio, y utilizamos un modelo de recompensa para clasificar todas las respuestas candidatas con el fin de proporcionar datos de ajuste de alta calidad. Tambi\u00e9n a\u00f1adimos datos de mitigaci\u00f3n de la seguridad para producir un modelo con un alto nivel de seguridad al tiempo que se conserva la utilidad del modo.\u00a0 El resultado final es un conjunto de modelos que pueden aceptar tanto mensajes de imagen como de texto, y que comprenden y razonan profundamente sobre la combinaci\u00f3n. Se trata de un paso m\u00e1s para que los modelos Llama tengan capacidades agenticas a\u00fan m\u00e1s ricas.\u00a0 Modelos ligeros Como hemos compartido sobre Llama 3.1, los potentes modelos de profesores pueden aprovecharse para crear modelos m\u00e1s peque\u00f1os con un rendimiento mejorado. Hemos utilizado dos m\u00e9todos -la poda y la destilaci\u00f3n- en los modelos 1B y 3B, convirti\u00e9ndolos en los primeros modelos Llama ligeros de gran capacidad que caben en dispositivos de forma eficiente.\u00a0 La poda nos ha permitido reducir el tama\u00f1o de los modelos existentes en la manada Llama, recuperando al mismo tiempo todo el conocimiento y el rendimiento posibles. Para los modelos 1B y 3B, adoptamos el enfoque de utilizar la poda estructurada de una sola vez a partir del Llama 3.1 8B. Esto implic\u00f3 eliminar sistem\u00e1ticamente partes de la red y ajustar la magnitud de los pesos y gradientes para crear un modelo m\u00e1s peque\u00f1o y eficiente que conserve el rendimiento de la red original. La destilaci\u00f3n de conocimientos utiliza una red m\u00e1s grande para impartir conocimientos en una red m\u00e1s peque\u00f1a, con la idea de que un modelo m\u00e1s peque\u00f1o puede lograr un mejor rendimiento utilizando un maestro que el que podr\u00eda lograr partiendo de cero. Para los modelos 1B y 3B de Llama 3.2, incorporamos logits de los modelos 8B y 70B de Llama 3.1 en la fase de preentrenamiento del desarrollo del modelo, en la que los resultados (logits) de estos modelos m\u00e1s grandes se utilizaron como objetivos a nivel de token. La destilaci\u00f3n de conocimientos se utiliz\u00f3 despu\u00e9s de la poda para recuperar el rendimiento. En el post-entrenamiento, utilizamos una receta similar a la de Llama 3.1 y producimos modelos de chat finales realizando varias rondas de alineaci\u00f3n sobre el modelo pre-entrenado. Cada ronda implica un ajuste fino supervisado (SFT), un muestreo de rechazo (RS) y una optimizaci\u00f3n directa de preferencias (DPO). En el postentrenamiento, ampliamos el soporte de longitud de contexto a 128.000 tokens, manteniendo la misma calidad que el modelo preentrenado. Tambi\u00e9n generamos datos sint\u00e9ticos que procesamos y filtramos cuidadosamente para garantizar una alta calidad. Mezclamos cuidadosamente los datos para optimizar la alta calidad en m\u00faltiples capacidades como el resumen, la reescritura, el seguimiento de instrucciones, el razonamiento ling\u00fc\u00edstico y el uso de herramientas. Para que la comunidad pueda innovar en estos modelos, hemos trabajado en estrecha colaboraci\u00f3n con Qualcomm y Mediatek, las dos principales empresas de sistemas m\u00f3viles en un chip (SoC) del mundo, y Arm, que proporciona la plataforma inform\u00e1tica fundamental para el 99% de los dispositivos m\u00f3viles. Las ponderaciones que se publican hoy se basan en n\u00fameros BFloat16. Nuestros equipos est\u00e1n explorando variantes cuantizadas que funcionen a\u00fan m\u00e1s r\u00e1pido, y esperamos compartir m\u00e1s sobre esto pronto. Distribuciones Llama Stack En julio, lanzamos una solicitud de comentarios sobre la API Llama Stack, una interfaz estandarizada para componentes can\u00f3nicos de la cadena de herramientas (ajuste fino, generaci\u00f3n de datos sint\u00e9ticos) para personalizar los modelos Llama y construir aplicaciones ag\u00e9nticas. Desde entonces, hemos estado trabajando duro para hacer realidad la API. Hemos creado una implementaci\u00f3n de referencia de las API para inferencia, uso de herramientas y GAR. Adem\u00e1s, hemos estado trabajando con socios para adaptarlos y convertirlos en proveedores de las API. Por \u00faltimo, hemos introducido Llama Stack Distribution como forma de empaquetar varios proveedores de API que funcionan bien juntos para ofrecer un \u00fanico punto final a los desarrolladores. Ahora compartimos con la comunidad una experiencia simplificada y coherente que les permitir\u00e1 trabajar con modelos Llama en m\u00faltiples entornos, incluidos on-prem, cloud, single-node y on-device. El conjunto completo de versiones incluye: Llama CLI (interfaz de l\u00ednea de comandos) para construir, configurar y ejecutar distribuciones Llama Stack. C\u00f3digo cliente en varios lenguajes, incluidos python, node, kotlin y swift Contenedores Docker para Llama Stack Distribution Server y Agents API Provider M\u00faltiples distribuciones Distribuci\u00f3n Llama Stack de nodo \u00fanico a trav\u00e9s de la implementaci\u00f3n interna de Meta y Ollama Distribuciones de Llama Stack en la nube a trav\u00e9s de AWS, Databricks, Fireworks y Together Distribuci\u00f3n de Llama Stack en dispositivos iOS implementada a trav\u00e9s de PyTorch ExecuTorch Distribuci\u00f3n Llama Stack on-prem respaldada por Dell Queremos trabajar con desarrolladores y socios para simplificar todos los aspectos de la construcci\u00f3n con modelos Llama y agradecemos sus comentarios. Adoptar un enfoque abierto tiene muchas ventajas. Ayuda a garantizar que m\u00e1s personas de todo el mundo puedan acceder a las oportunidades que ofrece la IA, evita la concentraci\u00f3n de poder en manos de unos pocos y despliega la tecnolog\u00eda de forma m\u00e1s equitativa y segura en toda la sociedad. A medida que seguimos innovando, tambi\u00e9n queremos asegurarnos de que capacitamos a los desarrolladores para crear sistemas seguros y responsables. Bas\u00e1ndonos en nuestra anterior publicaci\u00f3n y en nuestro esfuerzo continuo por apoyar la innovaci\u00f3n responsable, hoy a\u00f1adimos nuevas actualizaciones a nuestra familia de salvaguardas: En primer lugar, lanzamos Llama Guard 3 11B Vision, dise\u00f1ado para soportar la nueva capacidad de comprensi\u00f3n de im\u00e1genes de Llama 3.2 y filtrar las solicitudes de entrada de texto+imagen o las respuestas de salida de texto a estas solicitudes. En segundo lugar, al lanzar los modelos Llama 1B y 3B para su uso en entornos m\u00e1s restringidos, como los dispositivos, tambi\u00e9n hemos optimizado Llama Guard para reducir dr\u00e1sticamente su coste de despliegue. Llama Guard 3 1B se basa en el modelo Llama 3.2 1B y se ha podado y cuantizado reduciendo su tama\u00f1o de 2.858 MB a 438 MB, lo que hace que su despliegue sea m\u00e1s eficiente que nunca. Estas nuevas soluciones est\u00e1n integradas en nuestras implementaciones de referencia, demostraciones y aplicaciones, y est\u00e1n listas para que la comunidad de c\u00f3digo abierto las utilice desde el primer d\u00eda. Prueba Llama 3.2 hoy mismo Llama 3.2 est\u00e1 preparada para llegar a m\u00e1s gente que nunca y permitir nuevos e interesantes casos de uso. Creemos que no basta con compartir estos modelos con la comunidad de c\u00f3digo abierto. Queremos asegurarnos de que los desarrolladores tambi\u00e9n tienen las herramientas que necesitan para construir con Llama de forma responsable. Como parte de nuestros continuos esfuerzos de publicaci\u00f3n responsable, estamos ofreciendo a los desarrolladores nuevas herramientas y recursos, y como siempre, actualizaremos las mejores pr\u00e1cticas en nuestra Gu\u00eda de Uso Responsable. Seguimos compartiendo los \u00faltimos avances en el ecosistema Llama porque creemos que la apertura impulsa la innovaci\u00f3n y es buena para los desarrolladores, Meta y el mundo. Estamos muy contentos de continuar las conversaciones que estamos teniendo con nuestros socios y la comunidad de c\u00f3digo abierto, y como siempre, no podemos esperar a ver lo que la comunidad construye utilizando Llama 3.2 y Llama Stack. Este trabajo ha contado con el apoyo de nuestros socios de la comunidad de IA. Nos gustar\u00eda dar las gracias y reconocer (en orden alfab\u00e9tico) a: Accenture, AMD, Arm, AWS, Cloudflare, Databricks, Dell, Deloitte, Fireworks.ai, Google Cloud, Groq, Hugging Face, IBM watsonx, Infosys, Intel, Kaggle, Lenovo, LMSYS, MediaTek, Microsoft Azure, NVIDIA, OctoAI, Ollama, Oracle Cloud, PwC, Qualcomm, Sarvam AI, Scale AI, Snowflake, Together AI y UC Berkeley &#8211; vLLM Project.","og_url":"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/","og_site_name":"Acerca de Meta","article_published_time":"2024-09-25T17:30:09+00:00","og_image":[{"width":1024,"height":576,"url":"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image2.png?resize=1024,576","type":"image\/png"}],"author":"milenaherreraCO","twitter_card":"summary_large_image","twitter_misc":{"Written by":"Meta","Est. reading time":"13 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/#article","isPartOf":{"@id":"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/"},"author":"Facebook company","headline":"Llama 3.2: revolucionando la IA y la visi\u00f3n de vanguardia con modelos abiertos y personalizables","datePublished":"2024-09-25T17:30:09+00:00","mainEntityOfPage":{"@id":"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/"},"wordCount":2512,"publisher":{"@id":"https:\/\/about.fb.com\/ltam\/#organization"},"image":{"@id":"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/#primaryimage"},"thumbnailUrl":"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image2.png?fit=1999%2C1125","articleSection":["IA","Innovaci\u00f3n","Noticias de la Empresa","Tecnolog\u00eda e Innovaci\u00f3n"],"inLanguage":"es"},{"@type":"WebPage","@id":"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/","url":"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/","name":"Llama 3.2: revolucionando la IA y la visi\u00f3n de vanguardia con modelos abiertos y personalizables | Acerca de Meta","isPartOf":{"@id":"https:\/\/about.fb.com\/ltam\/#website"},"primaryImageOfPage":{"@id":"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/#primaryimage"},"image":{"@id":"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/#primaryimage"},"thumbnailUrl":"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image2.png?fit=1999%2C1125","datePublished":"2024-09-25T17:30:09+00:00","breadcrumb":{"@id":"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/"]}],"author":"Acerca de Meta"},{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/#primaryimage","url":"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image2.png?fit=1999%2C1125","contentUrl":"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image2.png?fit=1999%2C1125","width":1999,"height":1125},{"@type":"BreadcrumbList","@id":"https:\/\/about.fb.com\/ltam\/news\/2024\/09\/llama-3-2-revolucionando-la-ia-y-la-vision-de-vanguardia-con-modelos-abiertos-y-personalizables\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/about.fb.com\/ltam\/"},{"@type":"ListItem","position":2,"name":"Llama 3.2: revolucionando la IA y la visi\u00f3n de vanguardia con modelos abiertos y personalizables"}]},{"@type":"WebSite","@id":"https:\/\/about.fb.com\/ltam\/#website","url":"https:\/\/about.fb.com\/news\/","name":"Acerca de Meta","description":"","publisher":{"@id":"https:\/\/about.fb.com\/ltam\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/about.fb.com\/ltam\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"es","alternateName":["Meta Newsroom","Meta"]},{"@type":"Organization","@id":"https:\/\/about.fb.com\/ltam\/#organization","name":"Meta","url":"https:\/\/about.fb.com\/ltam\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/about.fb.com\/ltam\/#\/schema\/logo\/image\/","url":"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500","contentUrl":"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500","width":8000,"height":4500,"caption":"Meta"},"image":{"@id":"https:\/\/about.fb.com\/ltam\/#\/schema\/logo\/image\/"}}]}},"jetpack_featured_media_url":"https:\/\/about.fb.com\/ltam\/wp-content\/uploads\/sites\/14\/2024\/09\/image2.png?fit=1999%2C1125","jetpack-related-posts":[],"jetpack_sharing_enabled":true,"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/posts\/25441","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/users\/164097050"}],"replies":[{"embeddable":true,"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/comments?post=25441"}],"version-history":[{"count":3,"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/posts\/25441\/revisions"}],"predecessor-version":[{"id":25479,"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/posts\/25441\/revisions\/25479"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/media\/25465"}],"wp:attachment":[{"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/media?parent=25441"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/categories?post=25441"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/about.fb.com\/ltam\/wp-json\/wp\/v2\/tags?post=25441"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}