Privacidade é essencial: Raspagem de dados em números

Por Mike Clark, diretor de Gestão de Produto

No mês passado, fornecemos informações sobre uma questão que afeta amplamente toda a Internet conhecida como raspagem de dados (scraping). Scraping é a coleta automatizada de dados de um site ou aplicativo. Isso pode ser feito por meios autorizados, como normalmente é o caso de rastreamento de rede por um mecanismo de busca, ou por meios não autorizados, que envolvem o uso de automação para coletar informações que violem nossos termos de serviço. Aqueles que o fazem por meios não autorizados, muitas vezes tentam disfarçar sua atividade para que se misture com aquela que é típica do uso comum.

Publicamos anteriormente sobre como funciona a raspagem e como estamos combatendo isso. Neste post, forneceremos mais detalhes sobre nossos esforços para combater a raspagem e ofereceremos uma imersão no tópico de “enumeração de número de telefone” — uma técnica de raspagem que estava no centro de relatórios recentes sobre raspagem em nossa plataforma.

Acreditamos que é importante ser mais transparente sobre nosso trabalho para combater as diferentes formas de abuso em nossa plataforma. É por isso que hoje também lançamos nossa nova Central de Transparência, que cria um único destino para nossos esforços de integridade. Também acabamos de publicar nosso Relatório de Transparência mais recente, para o segundo semestre de 2020, bem como nosso Relatório de Aplicação dos Padrões da Comunidade, para o primeiro trimestre deste ano.

Como nos protegemos contra o uso indevido de dados

A raspagem afeta uma ampla variedade de empresas e setores. Além das plataformas de mídia social como Facebook, LinkedIn e Clubhouse, os raspadores de dados também coletaram informações pessoais de empresas de equipamentos de ginástica como a Echelon e aplicativos de saúde como Strava, bem como de setores como bancos, e-commerce e hotelaria. Qualquer site ou aplicativo por meio do qual os dados podem ser acessados publicamente é um alvo potencial de raspagem.

O Facebook está bem ciente deste risco e, embora nunca possamos eliminá-lo totalmente, realizamos uma série de esforços para mitigar o risco de danos em nossos produtos. Por exemplo:

  • Montamos uma equipe dedicada ao Uso Indevido de Dados Externos, que consiste em mais de 100 pessoas dedicadas a detectar, investigar e bloquear padrões de comportamento associados à coleta de dados.
  • Nós impomos limites de taxa e dados, que são projetados para restringir a quantidade de dados que uma única pessoa pode obter por meio de um determinado recurso, e colocamos outros obstáculos contra a automação não autorizada. Bloqueamos bilhões de ações suspeitas de raspagem por dia no Facebook e no Instagram.
  • Trabalhamos com pesquisadores para encontrar e proteger conjuntos de dados acessíveis publicamente que contêm informações de usuários do Facebook — quer os dados pareçam ter se originado do Facebook ou de um desenvolvedor de aplicativos do Facebook. Esses conjuntos de dados são encontrados em uma variedade de provedores de hospedagem e plataformas online. Os atores mal-intencionados que negociam ou vendem esses conjuntos de dados geralmente os reciclam ou manipulam com o tempo, o que significa que muitos deles costumam conter informações duplicadas ou dados imprecisos.
  • Se encontrarmos conjuntos de dados copiados contendo dados do Facebook, não há opções infalíveis para retirá-los ou ir atrás dos responsáveis por eles, mas podemos tomar uma série de ações. 
  • No ano passado, tomamos mais de 300 medidas de coação contra atores abusivos, incluindo o envio de cartas de “cessar e desistir”, desativando contas, entrando com ações judiciais ou solicitando assistência de provedores de hospedagem para removê-los. Em um caso recente, chegamos a um acordo bem-sucedido com a operadora de um serviço que violou nossos Termos, chamada Massroot8. Além de encerrar o serviço, banimos permanentemente a operadora e qualquer um agindo em seu nome no Facebook ou Instagram.

Enumeração de número de telefone

Uma técnica específica de raspagem que trabalhamos arduamente para combater é conhecida como “enumeração de número de telefone”. Isso envolve o uso de ferramentas automatizadas em grande escala para obter informações sobre pessoas com base em seus números de telefone.

Antes de um conjunto de melhorias que fizemos em setembro de 2019, os raspadores encontraram maneiras de abusar de vários recursos de descoberta de contato que tínhamos, e que eram projetados para permitir que as pessoas encontrassem e se conectassem com seus contatos no Facebook. Esses recursos incluem o importador de contato que as pessoas podem usar para carregar os contatos de seus dispositivos móveis para o Facebook e encontrar pessoas correspondentes com base em seus números de telefone. Acreditamos que os raspadores usaram enumeração de número de telefone. É assim que geralmente funciona usando a funcionalidade de importador de contato:

  • Com a enumeração de número de telefone, os raspadores visam áreas densamente povoadas que têm uma abundância de números de celular que provavelmente estão associados a contas no Facebook ou outras plataformas populares.
  • Eles escolhem um formato de número de telefone e geram automaticamente uma lista de números alvos.
  • Esses números são usados para criar listas de contatos em um grande número de dispositivos móveis simulados. Os raspadores espalham sua atividade por vários destes dispositivos para evitar a taxa de disparo ou limites de dados e para tentar se misturar com a atividade normal dos usuários. 
  • Os vários dispositivos simulados são usados para fazer upload de uma lista de contatos (cada um contendo um segmento dos números de telefone na lista dos raspadores) para o importador de contato do site ou aplicativo alvo.
  • Por design, o importador de contato retorna informações sobre os contatos correspondentes, sujeito às suas configurações de privacidade. Os raspadores agregam essas informações ao longo do tempo em um banco de dados separado.

As mudanças para utilizar o importador que descrevemos acima foram focadas no combate a essa técnica. Como os raspadores estão sempre mudando seus métodos, revisamos e atualizamos regularmente as nossas defesas para tentar ficar à frente deles. Detalhamos alguns de nossos métodos, incluindo limites de taxa, limites de dados, detecção comportamental e outras proteções em um post anterior.

Para ser claro, nossa primeira linha de defesa contra a raspagem não autorizada é dificultar ao máximo que os dados das pessoas sejam coletados em grande escala por atores mal-intencionados. Como queremos que as pessoas continuem usando nossos serviços e, ao mesmo tempo, garantir a proteção de suas informações, trabalhamos para encontrar maneiras de limitar o acesso a nossos recursos por raspadores e também permitir que as pessoas continuem usando esses recursos para se conectar com outras.



Usamos cookies para ajudar a personalizar conteúdo, mensurar anúncios e fornecer uma experiência mais segura. Clicando ou navegando no site, você concorda em permitir a coleta de informações dentro e fora do Facebook por meio de cookies. Saiba mais, inclusive sobre os controles disponíveis: Política de Cookies