Por Mike Clark, diretor de Gestão de Produto
Na semana passada, compartilhamos detalhes sobre um banco de dados público que reunia informações de pessoas que usam o Facebook e que foi divulgado na internet, o que gerou muita conversa sobre raspagem de dados. Desde então, casos similares envolvendo conjuntos de dados públicos e informações obtidas de outras empresas como LinkedIn e Clubhouse, vieram à tona. Gostaríamos de aproveitar a oportunidade para explicar mais sobre o que é raspagem de dados – ou scraping, em Inglês -, como funciona e o que estamos fazendo para evitar que isso aconteça para proteger as informações das pessoas.
O que é raspagem de dados?
Raspagem de dados (ou scraping) é a coleta automática de dados de um site ou aplicativo e que pode ter sido autorizada ou não. Cada vez que você faz uma pesquisa na internet, por exemplo, o mecanismo de busca provavelmente está usando dados que foram copiados de forma automatizada com o consentimento do site ou aplicativo. Essa é uma forma de raspagem conhecida como rastreamento e é o que ajuda a tornar as coisas na internet pesquisáveis.
Usar automação para obter dados do Facebook sem nossa permissão é uma violação de nossos termos. Os dados em si não são necessariamente inacessíveis; dados coletados estão geralmente amplamente disponíveis para acesso de pessoas comuns no uso diário de um site ou aplicativo. Os scrapers não podem acessar ou coletar dados de nossos produtos usando meios automatizados sem nossa permissão prévia.
Os scrapers geralmente apostam em táticas que camuflam suas ações, escondendo o que realmente estão fazendo, ao imitar a maneira como as pessoas usariam um produto. Por isso, pode ser muito difícil detectá-los. No entanto, temos vários métodos para distinguir o que são atividades automatizadas não autorizadas, e o que é uso legítimo que explicamos abaixo.
O que estamos fazendo em relação ao scraping?
Investimos muitos recursos para combater a raspagem de dados não autorizada de produtos do Facebook. Temos uma equipe dedicada ao tema do uso indevido de dados externos (EDM – External Data Misuse) composta por mais de 100 pessoas, incluindo cientistas de dados, analistas e engenheiros focados em nossos esforços para detectar, bloquear e impedir a raspagem.
Como os scrapers imitam a maneira como as pessoas usam nossos produtos de forma legítima, nunca seremos capazes de evitar por completo que as raspagens aconteçam sem prejudicar a capacidade de as pessoas usarem nossos aplicativos e sites da maneira que elas gostam. Isso significa que temos que buscar encontrar o equilíbrio e contar com uma variedade de abordagens para lidar com a raspagem. Como esse é um desafio comum e complexo de resolver, nosso objetivo é, em primeiro lugar, tornar mais difícil que os scrapers obtenham dados de nossos serviços e dificultar que façam dinheiro a partir deles, se o fizerem.
A primeira ação para dificultar a raspagem é por meio do uso de limites de taxa e limites de dados. Os limites de taxa limitam o número de vezes que qualquer pessoa pode interagir com nossos produtos em um determinado período de tempo. Já os limites de dados impedem que as pessoas obtenham mais dados do que deveriam ao usar nossos produtos normalmente.
Estabelecer limites é apenas a primeira camada de proteção e sabemos que os scrapers estão determinados a encontrar novas maneiras de obter dados. É por isso que também nos concentramos no desenvolvimento de outros métodos de identificação e prevenção de raspagem. Não entraremos em todos eles neste texto, porque não queremos produzir um manual aos scrapers que buscam maneiras de contornar as nossas defesas, mas um exemplo é que procuramos padrões de atividade e comportamento que são tipicamente associados à atividade automatizada do computador e interrompemos esses processos.
Nossa equipe de EDM também investiga scrapers suspeitos para aprender mais sobre o que eles estão fazendo e fortalecer os nossos sistemas. Tomamos uma série de medidas contra o uso indevido de dados. Isso pode incluir o envio de comunicados para que cessem e desistam de suas atividades de raspagem, desativação de contas, ações judiciais contra scrapers e solicitando às empresas cujos sites ou fóruns hospedam dados raspados que os removam. É por isso que também é importante que os governos façam mais para investigar e tomar medidas contra a atividade ilegal de raspagem de dados.
Scrapers que coletam dados indevidamente do Facebook às vezes disponibilizam esses dados em fóruns online, como o que foi relatado na semana passada. A equipe de EDM tenta evitar que esses dados sejam compartilhados online, engajando com pesquisadores de inteligência de ameaças na busca de exemplos desses conjuntos de dados sendo compartilhados e também trabalhando com quem hospeda fóruns e sites onde esses dados são disponibilizados para torná-los offline.
O que você pode fazer para manter seus dados protegidos
Além das medidas que tomamos para proteger seus dados, queremos que as pessoas que usam nossos serviços saibam como podem dificultar o uso indevido de suas informações. É por isso que os controles de privacidade do usuário existentes em nossas plataformas permitem que as pessoas ajustem suas configurações para que decidam, por exemplo, quais informações são públicas ou quem pode procurá-las pelo número de telefone.
Também lançamos recentemente uma área na Central de Ajuda dedicada a informar as pessoas sobre scraping e o que elas podem fazer para proteger suas informações. Por exemplo, nosso recurso Verificação de Privacidade ajuda a orientar as pessoas em suas configurações de privacidade e segurança, incluindo quem pode ver o que você compartilha e como as pessoas podem encontrar você no Facebook. Recomendamos que as pessoas revejam suas configurações de privacidade regularmente para garantir que estejam alinhadas com suas preferências atuais. Além disso, temos a página Privacy Matters (disponível em Inglês), na qual fornecemos mais informações sobre nossas iniciativas de privacidade, e planejamos publicar nessa página ainda mais detalhes sobre nossa abordagem de scraping e o que fazemos a respeito.