Durante el último mes, hemos estado proporcionando información sobre un problema que afecta ampliamente a todo Internet conocido como scraping: la recopilación automatizada de datos de un sitio web o una aplicación. Puede realizarse a través de medios autorizados, como suele ocurrir en el caso del rastreo web mediante un motor de búsqueda, o mediante medios no autorizados, lo que implica el uso de la automatización para recopilar información en violación de nuestros términos de servicio. Aquellos que lo hacen por medios no autorizados suelen intentar disfrazar su actividad para que se mezcle con la que es propia del uso común.
Hemos publicado sobre cómo funciona el scraping y cómo lo estamos combatiendo. En esta publicación, brindaremos más detalles sobre nuestros esfuerzos para combatir el scraping no autorizado y ofreceremos mayor detalle sobre la «enumeración de números de teléfono», una técnica de scraping que fue parte de informes recientes sobre scraping en nuestra plataforma.
Creemos que es importante ser más transparentes sobre nuestro trabajo para combatir diferentes formas de abuso en nuestra plataforma. Es por eso que hoy también lanzamos nuestro nuevo Centro de Transparencia, en el que compartiremos nuestros esfuerzos de integridad. También acabamos de publicar nuestro más reciente Reporte de Transparencia correspondiente a la segunda mitad de 2020, así como nuestro Informe de Cumplimiento de nuestras Normas Comunitarias correspondiente al primer trimestre de este año.
Cómo protegemos contra el uso indebido de datos
El scraping afecta a una amplia variedad de empresas e industrias. Más allá de las plataformas de redes sociales como Facebook, LinkedIn y Clubhouse, los recopiladores de datos también han obtenido información personal de empresas de equipos para ejercicio como Echelon y aplicaciones de salud como Strava, así como de industrias como la bancaria, el comercio electrónico y la hotelería. Cualquier sitio web o aplicación a través del cual se pueda acceder públicamente a los datos es un susceptible a scraping.
Facebook es muy consciente de este riesgo y, aunque nunca podremos eliminarlo por completo, realizamos una serie de esfuerzos para mitigar el riesgo de scraping en nuestros productos. Por ejemplo:
- Contamos con equipo especializado en el uso indebido de datos conformado por más de 100 personas enfocadas en detectar, investigar y bloquear patrones de comportamiento asociados con el scraping.
- Ponemos límites de velocidad y datos, diseñados para restringir la cantidad de datos que una sola persona puede obtener a través de una determinada función, y ponemos otros obstáculos contra la automatización no autorizada. Bloqueamos miles de millones de acciones sospechosas de scraping por día en Facebook e Instagram.
- Trabajamos con investigadores para encontrar y proteger conjuntos de datos de acceso público que contienen datos de usuarios de Facebook, ya sea que los datos parezcan haberse originado en Facebook o a través de un desarrollador de aplicaciones de Facebook. Estos conjuntos de datos se encuentran en una variedad de proveedores de alojamiento y plataformas en línea. Los actores malintencionados que comercian o venden estos conjuntos de datos a menudo los reciclan o manipulan con el tiempo, lo que significa que muchos de ellos a menudo contienen información duplicada o datos inexactos.
- Si encontramos conjuntos de datos extraídos que contienen datos de Facebook, no hay opciones infalibles para eliminarlos o perseguir a los responsables de ellos, pero podemos tomar una serie de acciones.
- En el último año, hemos tomado más de 300 acciones contra actores abusivos, incluyendo el envío de cartas de cese y desistimiento, la desactivación de cuentas, presentación de demandas o la solicitud de ayuda a los proveedores de alojamiento para que los retiren. En un caso reciente, llegamos a un acuerdo con el operador de un servicio que violaba nuestros términos y condiciones, llamado Massroot8. Además de cerrar el servicio, eliminamos permanentemente al operador y a cualquiera que actuara en su nombre de Facebook o Instagram.
Enumeración de datos de teléfono
Una técnica de scraping en particular en la que hemos trabajado arduamente en combatir se conoce como «enumeración de números de teléfono». Esto implica el uso de herramientas automatizadas a escala para obtener información sobre las personas con base en sus números telefónicos.
Antes del conjunto de mejoras que realizamos en septiembre de 2019, los scrapers encontraron formas de abusar de varias funciones de descubrimiento de contactos que teníamos y que estaban diseñadas para permitir a las personas encontrar y conectarse con sus contactos en Facebook. Estas funciones incluyen la función de importador de contactos que las personas podían utilizar para cargar sus contactos desde sus dispositivos móviles a Facebook y encontrar personas con intereses similares con base en sus números de teléfono. Creemos que los scrapers utilizaban la enumeración de números de teléfono para abusar de esta función y extraer información. A continuación se explica cómo funciona en general la enumeración de números usando el importador de contactos; también podrás consultar una visualización del proceso que muestra cómo trabajamos para combatir esta técnica.
- Con la enumeración de números de teléfono, los scrapers se dirigen a zonas densamente pobladas que tienen una gran cantidad de números de teléfono móvil que probablemente estén asociados a cuentas en Facebook u otras plataformas populares.
- Eligen un formato de número de teléfono y generan automáticamente una lista de números de teléfono.
- Estos números se utilizan para crear listas de contactos en un gran número de dispositivos móviles simulados. Los scrapers reparten su actividad entre numerosos dispositivos simulados para evitar superar los límites de velocidad o de datos e intentar mezclarse con la actividad ordinaria de los usuarios.
- Cada uno de los dispositivos simulados se utiliza para cargar una lista de contactos (cada uno de los cuales contiene un segmento de los números de teléfono de la lista de los scrapers) en el importador de contactos del sitio web o la aplicación objetivo.
- El importador de contactos devuelve la información sobre los contactos que coinciden, sujeto a configuración de privacidad. Los scrapers agregan esta información a lo largo del tiempo en una base de datos separada.
Los cambios al importador de contactos que describimos anteriormente se enfocan en combatir esta técnica. Debido a que los scrapers siempre cambian sus métodos, revisamos y actualizamos nuestras defensas con regularidad para tratar de adelantarnos a ellos. Detallamos algunos de nuestros métodos, incluidos los límites de velocidad, los límites de datos, la detección del comportamiento y otras protecciones en una publicación anterior.
Para ser claros, nuestra primera línea de defensa contra el scraping no autorizado es dificultar al máximo la recopilación de datos de personas a gran escala por parte de actores malintencionados. Queremos que las personas continúen sintiéndose cómodas usando nuestros servicios, con la certeza de que protegemos su información, por lo que trabajamos para encontrar formas de limitar el acceso a nuestras funciones por parte de scrapers al mismo tiempo que permitimos que las personas continúen usando esas funciones para conectarse y compartir entre ellas.