La semana pasada, compartimos más detalles acerca de una base de datos pública que apareció en línea, con información sobre personas en Facebook, y que generó mucha conversación sobre el data scraping –extracción de datos-. Dado que han surgido historias similares acerca de datos públicos obtenidos de otras compañías, incluyendo LinkedIn y Clubhouse, nos gustaría brindar más información sobre qué es el scraping, cómo funciona y qué está haciendo Facebook para prevenirlo y proteger la información de las personas.
¿Qué es Scraping?
Scraping o extracción de datos es la recolección de datos automatizada de un sitio web o aplicación, y que puede ser autorizada o no autorizada. Cada vez que usas un buscador, por ejemplo, es muy probable que estés utilizando datos que son extraídos de formas automáticas con el consentimiento del sitio web o la app. Esta es una forma de scraping, conocida como crawling -arrastrado-, y ayuda a que el internet sea más buscable.
Usar automatización para obtener datos de Facebook sin nuestro permiso es una violación de nuestras políticas. Los datos por sí mismos no están fuera de alcance; los datos extraídos están generalmente disponibles para que las personas accedan a estos desde un sitio web o app. Los scrapers no tienen acceso ni pueden recolectar los datos de nuestros productos utilizando medios automatizados sin nuestro permiso.
Los scrapers generalmente intentan mezclarse con otros y pueden esconder lo que están haciendo imitando las formas en que las personas generalmente usan un producto. Esto hace que sea difícil detectarlos. Sin embargo, tenemos diversos métodos para distinguir lo que son actividades automatizadas no autorizadas de lo que es un uso legítimo, mismos que explicamos a continuación.
Lo que estamos haciendo respecto al Scraping
Dedicamos recursos para combatir el scraping no autorizado en los productos de Facebook. Contamos con un equipo dedicado al tema de uso indebido de datos externos(External Data Misuse o EDM) compuesto por más de 100 personas, que incluye científicos, analistas e ingenieros de datos enfocados en detectar, bloquear y disuadir el scraping.
Ya que los scrapers imitan la forma en que las personas usan los productos legítimamente, nunca podremos prevenir por completo el scraping sin perjudicar la forma en que las personas usan nuestras apps o sitios web de manera habitual. Esto significa que debemos intentar encontrar el equilibrio adecuado y de diversas tácticas para abordar el scraping. Debido a que estamos frente a un desafío común y complejo, empleamos un enfoque holístico para mantenernos un paso adelante. Nuestro objetivo es, en primer lugar, lograr que sea más difícil para los scrapers adquirir datos de nuestros servicios y en segundo lugar, hacer que sea más difícil capitalizarlos si lo hacen.
La primera manera en que buscamos hacer el scraping más difícil es a través de los límites de velocidad y de datos. Los límites de velocidad acotan la cantidad de veces que alguien puede interactuar con nuestros productos en un periodo determinado de tiempo, mientras que el límite de datos previene que las personas obtengan más datos de los que deberían necesitar para usar nuestros productos normalmente.
Los límites son solo una primera capa de protección y sabemos que los scrapers están determinados a encontrar nuevas formas de acceder a datos. Es por ello que también nos hemos enfocado en desarrollar otros métodos para identificar y disuadir el scraping. No explicaremos todos porque no queremos trazar un mapa para que los scrapers puedan evadir nuestras defensas, pero un ejemplo es que buscamos patrones en la actividad y comportamiento que están típicamente asociados con actividad automatizada computacional y la detenemos.
Nuestro equipo EDM también investiga a posibles scrapers para aprender más de lo que están haciendo para hacer nuestros sistemas más fuertes. Hemos tomado varias acciones en contra del uso indebido de los datos. Esto puede incluir el envío de cartas de cese y desista, deshabilitar cuentas, presentar demandas en contra de los scrapers de comportamiento reprobable y la solicitud a compañías que alojan los datos para que sean retirados. Es por esto que también es importante que los gobiernos hagan más por investigar y tomar acciones en contra de la actividad ilegal de scraping.
Los scrapers que recopilan datos de Facebook indebidamente, algunas veces facilitan esta información en foros en línea, como el caso que fue reportado la semana pasada. El equipo EDM intenta evitar que esos datos sean compartidos en línea al colaborar con investigadores de inteligencia de amenazas para buscar ejemplos de estos conjuntos de datos que se comparten y trabajar con proveedores de alojamiento responsables para bajarlos.
Qué puedes hacer para mantener tus datos seguros
Además de los pasos que llevamos a cabo para proteger tus datos, también queremos invitar a las personas que usan nuestros servicios a hacer más difícil que su información sea mal utilizada. Para ello contamos con controles de privacidad que permiten a los usuarios configurar qué información es pública o quién puede buscarlos por su número de teléfono. Asimismo, recientemente presentamos un Centro de Ayuda para informar a las personas acerca del scraping y qué pueden hacer para proteger su información. Por ejemplo, la herramienta Comprobación Rápida de Privacidad ayuda a las personas a recorrer sus preferencias de privacidad y seguridad, incluido “Quién puede ver lo que compartes” y “Cómo pueden encontrarte en Facebook”. Recomendamos a las personas a revisar sus ajustes de privacidad frecuentemente para asegurar que estas vayan en línea con sus preferencias actuales. Las personas también pueden consultar nuestro sitio La privacidad importa, en el que encontrarán información acerca de nuestras iniciativas de privacidad, en el que planeamos publicar más sobre nuestro enfoque de scraping y lo que encontremos al respecto.