La pandemia de COVID-19 es una emergencia sanitaria increíblemente compleja, que evoluciona rápidamente a nivel global. En Facebook estamos comprometidos a prevenir la difusión de información falsa y engañosa en nuestras plataformas. La desinformación sobre la enfermedad puede evolucionar a gran velocidad y resulta difícil distinguirla de los reportes legítimos. La misma pieza de desinformación puede aparecer en formatos ligeramente diferentes, como una imagen modificada en apenas unos pocos píxeles recortados o aumentados mediante el uso de filtros. Estas variaciones pueden no ser intencionales, pero también pueden tratarse de acciones deliberadas para evitar ser detectadas. Es importante evitar la calificación errónea de un contenido legítimo, y catalogarlo como si fuera desinformación, ya que puede afectar la posibilidad de que las personas se expresen en nuestras plataformas.
La Inteligencia Artificial es crucial para enfrentar estos retos y prevenir la difusión de desinformación, ya que nos permite potenciar el trabajo de los verificadores independientes que revisan contenido en nuestros servicios. Trabajamos con más de 60 organizaciones de verificación de información en todo el mundo, que analizan publicaciones en más de 50 idiomas. Desde que empezó la pandemia, hemos usado nuestros sistemas de Inteligencia Artificial y desarrollado nuevos para tratar material relacionado con el COVID-19 y que los chequeadores puedan identificar las piezas falsas y alertar a las personas cuando intenten compartirlas.
Además de detectar la desinformación, nuestros sistemas de Inteligencia Artificial nos están ayudando con otros retos relacionados a la pandemia. Hemos desarrollado nuevos clasificadores de visión para hacer cumplir nuestra prohibición temporal a los anuncios comerciales de máscaras faciales y otros productos. Debido a que algunas veces las personas intentan modificar los avisos de esos productos para evitar a nuestros sistemas, también estamos corriendo procesos para identificar coincidencias basadas en características locales que ayudan a detectar instancias que fueron manipuladas a una gran escala. En muchos casos, podemos tomar acciones proactivamente, antes incluso de que alguien lo reporte.
En abril, colocamos etiquetas de advertencia a cerca de 50 millones de publicaciones relacionadas con el COVID-19 en Facebook, en base a unos 7.500 artículos de nuestros verificadores. Desde el 1 de mayo, hemos removido más de 2,5 millones de piezas de contenido sobre venta de máscaras faciales, desinfectantes para manos, toallas sanitarias y tests para detectar el virus. Pero estos son retos difíciles y nuestras herramientas no son perfectas. Se trata de un trabajo constante que nunca puede considerarse terminado. En esta publicación nos estamos enfocando en algunos de nuestros esfuerzos en el campo de la visión por computadora, pero estos problemas requieren de un amplio conjunto de herramientas de Inteligencia Artificial. Tenemos mucho trabajo por hacer, pero estamos seguros que podemos seguir construyendo en base a lo que ya hicimos, mejorar nuestros sistemas y hacer más para proteger a las personas del contenido dañino relacionado a la pandemia.
Uso de Inteligencia Artificial para potenciar el trabajo de los verificadores contra de la desinformación
Estos dos ejemplos muestran copias casi exactas de desinformación, siendo esta última una captura de pantalla de la primera.
Cualquier persona podría decir que estas imágenes son prácticamente idénticas. De hecho, a simple vista puede ser difícil ver las diferencias. Los sistemas de visión por computadora también pueden tener dificultades para detectar esas coincidencias, porque aunque el contenido es idéntico, los píxeles no lo son.
Es extremadamente importante que estos sistemas sean tan precisos como sea posible, porque un error puede llevar a que se ejecute una acción sobre un contenido que no viola nuestras políticas. El ejemplo a continuación muestra una versión similar que no debería ser clasificada como desinformación.
Esta última imagen es muy similar a las anteriores, pero su texto no contiene desinformación sobre el virus.
Cuando una pieza de contenido es calificada como falsa por nuestros verificadores de información independientes reducimos su distribución y mostramos etiquetas de advertencia con más contexto (más detalles, aquí). Como lo hemos mencionado anteriormente, estas etiquetas de advertencia son una herramienta eficiente para enfrentar la desinformación. Cuando aparecen, en el 95% de los casos las personas optan por no ver el contenido marcado.
SimSearchNet, un modelo de red neuronal complejo, desarrollado específicamente para detectar duplicados casi exactos, ahora nos está ayudando a hacer este trabajo. Una vez que los verificadores determinan que una imagen contiene información engañosa o falsa sobre el nuevo coronavirus, SimSearch, como parte de nuestro sistema de indexación y comparación de imágenes de extremo a extremo, es capaz de reconocer coincidencias casi duplicadas para que podamos poner etiquetas de advertencia.
Esto es particularmente importante porque por cada pieza de desinformación que los verificadores identifican, podrían haber miles de millones de copias. El uso de Inteligencia Artificial para detectar estas coincidencias permite a los verificadores enfocarse en detectar nuevas instancias de desinformación en lugar de variaciones casi idénticas de contenido que ya hayan visto.
SimSearchNet se basa en una colaboración de varios años entre investigadores especializados en Inteligencia Artificial de Facebook, ingenieros, y muchos otros equipos de la compañía. Se basa en años de investigación en visión por computadora en Facebook, particularmente, en la construcción de representaciones compactas que nos permiten indexar y buscar rápidamente fotos a escala.
También usa la misma infraestructura de coincidencia a gran escala se emplea para detectar otro contenido dañino. Este sistema opera sobre cada imagen subida a Facebook e Instagram y las compara con bases de datos específicas curadas manualmente. Esto representa miles de millones de imágenes verificadas por día, incluidas las bases de datos hechas para detectar desinformación sobre COVID-19.
Frenar la venta de productos para el COVID-19 incluso cuando se intenta evitar que sean detectados
Desde que empezó la crisis, hemos trabajado para proteger a las personas de aquellos que tratan de sacar provecho económico de esta emergencia. Para identificar mejor y remover anuncios de productos como máscaras faciales, desinfectante de manos, toallas sanitarias y tests para detectar COVID-19, hemos implementado un sistema que utiliza características locales a nivel de imagen para hallar anuncios alterados. Esto nos ayuda proactivamente a evitar anunciantes que intentan evadir nuestros sistemas de Inteligencia Artificial.
Mantenemos una base de datos extraída de anuncios relacionados con COVID-19 que violan nuestras políticas y después verificamos imágenes en nuevos anuncios, usando el sistema para instancias coincidentes.
Esta solución basada en características locales nos permite detectar de mejor manera anuncios manipulados para enfrentar tácticas de modificación comunes, como el recorte, la rotación, la oclusión y el ruido. El proceso de resultados de instancias coincidentes ya está rechazando anuncios en forma automática.
También hemos usado las instancias coincidentes en otros sistemas de integridad de anuncios para hacer cumplir las normas relacionadas al COVID-19. Por ejemplo, al tomar imágenes recortadas de máscaras faciales detectadas en anuncios usamos ese procedimiento para identificar diversas muestras de otras imágenes de barbijos. Ese conjunto de datos se usa para volver a entrenar a nuestro clasificador de anuncios. Mediante el empleo de ejemplos detectados por el clasificador podemos evitar que circulen anuncios que infrinjan las políticas para máscaras faciales en diez veces más que cuando utilizamos únicamente la función de coincidencia.
Modelos de entrenamiento rápido de visión para Marketplace
Cuando las personas venden cosas a través de Marketplace, usan imágenes con fondos, ángulos de cámara, detalles y calidad en general muy diferentes. Esto puede hacer que sea más difícil para los modelos de visión reconocer elementos que si se tratara, por ejemplo, de fotos de un catálogo tomadas profesionalmente y con fondos lisos.
A lo largo de los años, hemos aprovechado varias técnicas de adaptación de dominios para implementar cientos de modelos de clasificación y detección de objetos que funcionan bien en estas desafiantes condiciones del mundo real.
Las lecciones que nos han dejado estos esfuerzos nos llevaron a invertir en la construcción de una plataforma sobre la base de PyTorch, que nos permite capacitar e implementar rápidamente clasificadores/detectores a pedido para nuevas clases de imágenes y videos. Esta plataforma aprovecha el trabajo innovador de Inteligencia Artificial de Facebook en la capacitación de desarrollos de última generación sobre miles de millones de fotos etiquetadas. También emplea técnicas de aumento de datos que nos permiten impulsar modelos con cantidades limitadas de datos sin obviar la diversidad que se ve en las fotos de productos de Marketplace.
Después de que comenzó la crisis del coronavirus, utilizamos esta plataforma para entrenar e implementar clasificadores para máscaras faciales, desinfectantes y toallas sanitarias. Primero, recopilamos fotos públicas de estos productos y luego ajustamos y aumentamos esos datos. Para mejorar la precisión, también agregamos miles de imágenes «negativas» de elementos que un modelo podría confundir con una máscara facial. Después de la capacitación y la evaluación fuera de línea, implementamos el concepto en nuestra plataforma y lo aplicamos retroactivamente a las imágenes de Marketplace. Estos modelos ahora se están ejecutando globalmente en los nuevos listados de Marketplace.
Planeamos continuar invirtiendo en la plataforma y seguir trabajando para mejorar los modelos anteriores, especialmente a medida que el ciclo de retroalimentación nos presenta más datos. Estas señales también serán utilizadas por clasificadores multimodales, cuyo objetivo es mirar en forma amplia a las publicaciones.
Más esfuerzos para detectar desinformación y contenido dañino
Los problemas de desinformación y los intentos de vender artículos prohibidos no comenzaron con la pandemia de COVID-19. Para abordar estos y otros desafíos, Facebook ha realizado inversiones a largo plazo en la investigación de sistemas de razonamiento visual y comprensión multimodal, desarrollando nuevas técnicas de aprendizaje autosupervisado y construyendo plataformas que nos permiten pasar rápidamente de la investigación a la producción a escala.
Hemos visto cómo lo que hasta hace algunos años era considerado investigación de vanguardia ahora es una realidad que nos ayuda a mejorar. Confiamos en que podemos adquirir nuevas técnicas y herramientas de investigación y usarlas para proteger mejor a las personas en nuestras plataformas.