Escalando el desarrollo y la evaluación de nuestra IA más avanzada

A medida que desarrollamos una IA más potente y personalizada, la fiabilidad, la seguridad y las protecciones para los usuarios son más importantes que nunca.

La seguridad de los modelos avanzados exige un enfoque igualmente sofisticado, uno capaz de crecer a la par de la tecnología. Hoy presentamos una visión detallada de nuestro trabajo, incluyendo: Nuestro Marco actualizado de Escalabilidad de IA Avanzada, Nuestro próximo Informe de Seguridad y Preparación para Muse Spark, y Nuevos avances en el razonamiento de seguridad integrado en la base de nuestros modelos. Esto asegura que nuestras protecciones evolucionen al mismo ritmo que las capacidades de nuestra IA.

Marco de Escalabilidad de IA Avanzada

Hoy avanzamos a partir de nuestro Marco de IA de Vanguardia original y publicamos una versión considerablemente más rigurosa y actualizada: el Marco de Escalabilidad de IA Avanzada. Esta actualización amplía los tipos de riesgos que evaluamos, fortalece la forma en que tomamos decisiones de implementación e introduce nuevos Informes de Seguridad y Preparación. En particular, este Marco describe cómo identificamos y evaluamos los riesgos más graves y emergentes, incluidos los químicos y biológicos, los de ciberseguridad, y una nueva sección para evaluar riesgos relacionados con la pérdida de control. A medida que los modelos se vuelven más avanzados, estamos analizando cómo se desempeñan cuando se les otorga mayor autonomía y si los controles sobre ese comportamiento funcionan según lo previsto. Estos estándares se aplican a todas nuestras implementaciones de modelos avanzados, ya sean abiertos, de acceso controlado por API o modelos cerrados.

En la práctica, esto también significa mapear los riesgos potenciales, evaluar los modelos antes y después de aplicar las medidas de protección para confirmar que funcionan en el mundo real, e implementar modelos únicamente cuando cumplen con los estándares establecidos por nuestro Marco. Para las personas que usan Meta AI en nuestras aplicaciones, esto significa que los modelos que impulsan su experiencia han sido evaluados en un amplio espectro de riesgos antes de que los pongamos a su disposición.

Si bien nuestro Marco actualizado fortalece los estándares y las medidas de protección para nuestros modelos más capaces, nuestros nuevos Informes de Seguridad y Preparación demuestran cómo los estamos cumpliendo. Estos informes detallan nuestras evaluaciones de riesgos, los resultados de las pruebas, la lógica detrás de nuestras decisiones de implementación y cualquier limitación que aún estamos trabajando para abordar. Esto significa que compartiremos nuestros hallazgos, cómo probamos nuestros modelos, en qué aspectos nuestras evaluaciones se quedaron cortas y cómo cerramos esas brechas.

Informe de Seguridad y Preparación

Para Muse Spark, realizamos evaluaciones de seguridad exhaustivas antes de su implementación. Debido a sus capacidades avanzadas de razonamiento, evaluamos el modelo antes y después de aplicar las protecciones, probando no solo los riesgos más graves como la ciberseguridad y las amenazas químicas y biológicas, sino también en relación con nuestras políticas de seguridad vigentes desde hace mucho tiempo, diseñadas para prevenir daños y usos indebidos como la violencia, las violaciones a la seguridad infantil y las conductas delictivas, además de nuestras políticas para garantizar el equilibrio ideológico.

Nuestro enfoque de evaluación tiene múltiples capas por diseño, y comienza antes de que un modelo sea implementado. Sometemos nuestros sistemas a miles de escenarios de prueba diseñados para identificar vulnerabilidades. Monitoreamos de cerca la tasa de éxito de estos intentos de ataque y trabajamos constantemente para reducirla al nivel más bajo posible. Dado que ninguna evaluación es exhaustiva, también monitoreamos el tráfico en tiempo real con sistemas automatizados diseñados para detectar problemas inesperados y poder abordarlos rápidamente. Los resultados demuestran protecciones sólidas en todas las categorías de riesgo que medimos. Nuestras evaluaciones también demostraron que Muse Spark está a la vanguardia en evitar sesgos ideológicos en las respuestas del modelo.

Nuestras evaluaciones también se centraron en la posibilidad de que el modelo actuara de manera autónoma y difícil de controlar. Los resultados confirman que el modelo carece del nivel de capacidad autónoma necesario para generar tales riesgos. Nuestro próximo Informe de Seguridad y Preparación detalla las evaluaciones específicas detrás de este hallazgo, además de todos nuestros resultados de evaluación: qué probamos, qué encontramos, y pronto compartiremos más información.

Seguridad que evoluciona junto al modelo

Estas protecciones están integradas en cada etapa, desde el filtrado de los datos con los que aprende el modelo, pasando por el entrenamiento enfocado en seguridad, hasta las barreras de protección que operan a nivel de producto. Y dado que nuestras protecciones necesitan evolucionar a medida que mejora la sofisticación de nuestros modelos, este trabajo nunca estará terminado.

En particular, supera a nuestros modelos de la generación anterior, y precisamente esta capacidad superior hace posible un enfoque fundamentalmente nuevo para gobernar el modelo. Los enfoques anteriores se basaban en enseñar a los modelos a manejar escenarios específicos uno por uno; por ejemplo, entrenarlos para negarse a responder o para redirigir a una fuente confiable. Ese enfoque funcionaba, pero era difícil de escalar. Como Muse Spark puede razonar, hemos evolucionado nuestro enfoque: hemos traducido nuestras directrices de confianza y seguridad en áreas como seguridad de contenido y conversacional, calidad de respuesta y manejo de diferentes puntos de vista en principios claros y verificables. También entrenamos al modelo sobre por qué algo es seguro, no solo en las reglas, sino también en las razones detrás de ellas. Esto implica que el modelo tiene una mayor capacidad para responder a situaciones imprevistas, a diferencia de los sistemas basados en reglas que no podrían anticiparlas.

Este trabajo no reemplaza la supervisión humana, la eleva. Diseñamos los principios que rigen el comportamiento del modelo, los validamos rigurosamente con escenarios reales e implementamos barreras de protección adicionales para capturar cualquier elemento que el modelo pueda pasar por alto. El resultado son protecciones que se aplican de manera más amplia y consistente, y que mejoran a medida que mejora el razonamiento del modelo.

Mostrando nuestro trabajo

A medida que realizamos avances significativos en Meta AI e implementamos nuestros modelos más capaces, los Informes de Seguridad y Preparación mostrarán cómo estamos evaluando y gestionando los riesgos en cada paso. Continuaremos invirtiendo en protección, pruebas e investigación. De esta manera, las personas podrán confiar en una experiencia de IA con protecciones integradas diseñadas para su seguridad.

Noticias relacionadas