先週、私たちはFacebook利用者の情報を含む公開データベースがオンライン上で公開され、スクレイピングに関して多くの懸念の声が上がったことを受け、詳細を共有しました。以降、LinkedIn(外部サイト/英語のみ)やClubhouseを含む他の企業からも入手された情報を含んだ公開データセットについて同様の報道がされたことを踏まえて、スクレイピングとは何か、どのように機能するのか、また、スクレイピングを防ぎ、利用者の情報を保護するためのFacebook社の取り組みについて説明します。
スクレイピングの仕組み
スクレイピングとは、ソフトウェアを使ってウェブサイトやアプリからデータを自動的に収集することで、認められる場合とそうでない場合の両方があります。例えば、人々が検索エンジンを使用するたびに、ウェブサイトやアプリの同意を得て自動的にスクレイピングにより収集されたデータを使用している場合があります。これは「クローリング」と呼ばれるスクレイピング技術の1つであり、インターネットでの情報の検索に役立っています。
しかし、自動化されたソフトウェアを利用し、Facebook上のデータを無断で取得する場合には、Facebook社の規約違反となります。スクレイピングの対象となるデータは、通常、人々が日常的にウェブサイトやアプリを利用する際にアクセスできるような広く公開されているものが多いため、データの取得自体が必ずしも禁止されているわけではありません。しかし、Facebook社の事前の許可なく、自動化された手段を用いて私たちのプラットフォームにアクセスしたり、データを収集したりすることは許されません。
ウェブスクレイパーは、多くの場合、普段人々がプロダクトを利用している方法を模倣することで、スクレイピングしていることを隠そうとします。そのため、悪意を持ってスクレイピングしている人を検知することは困難です。しかし、Facebook社では、悪意を持ったスクレイピングと正当な範囲内で行われるスクレイピングとを区別するためにいくつかの方法を用いています。
スクレイピングに対する取り組み
Facebook社は、私たちのプロダクトにおける不正なスクレイピングに対抗するために大きく投資をしています。データサイエンティストやアナリスト、エンジニアを含む100人以上で構成された専門の外部データ不正使用対策チーム (EDMチーム) があり、スクレイピングの検出やブロック、抑止に注力しています。
ウェブスクレイパーは、普段利用者がFacebookのプロダクトを利用している方法を模倣しているため、利用者がアプリやウェブサイトを楽しむための使用性を損なうことなく、すべてのスクレイピングを完全に防ぐことはできません。つまり、適切なバランスを取りつつ、スクレイピングに対処するためにさまざまなアプローチを採用する必要があるということです。スクレイピングは、私たちが解決すべき、一般的かつ複雑な課題であるため、Facebook社は包括的なアプローチでスクレイピングに対処します。つまり、ウェブスクレイパーがFacebookのサービスからデータを取得することをまず困難にし、取得したデータについてはそれらの利用を困難にすることを目指します。
まず、スクレイピングを困難にするためにレートリミットとデータリミットを設けています。レートリミットは、一定の時間内にプロダクトを操作できる回数を制限するもので、データリミットは、利用者が通常使用するのに必要な量を超えるデータを取得できないようにするものです。
これらの制限はデータ保護の第一段階の手段にすぎません。ウェブスクレイパーはデータを取得するための新しい方法を見つけようとしています。そのため、スクレイピングを識別して阻止するための他の方法の開発にも注力しています。Facebook社の防御をかいくぐろうとしているウェブスクレイパーにどのような対策を講じているのかを明らかにしてしまうことにもなるため、Facebook社が講じているすべてを説明することはできませんが、1つの例として挙げられるのは、自動化されたソフトウェアを活用した場合に見られる活動や行動のパターンを調査し、類似の操作を阻止するものです。
また、外部データ不正使用対策チームは、ウェブスクレイパーの疑いがある場合には調査を行い、彼らがどのような操作を行っていることを認識し、システムをより強固なものにしています。Facebook社は、これまでデータの不正使用に対してさまざまな措置を講じてきました。例えば、差止命令書の送付(英語のみ)、アカウントの無効化(英語のみ)、悪質なウェブスクレイパーに対する訴訟の提起(英語のみ)、スクレイピングされたデータを公開している企業への削除要請などがあります。政府が違法なスクレイピング行為に対しては捜査を行い、必要な措置を講じることも重要です。
Facebookから不当な方法でデータを収集したウェブスクレイパーは、先日報道されたようなオンラインフォーラムでデータを公開することがあります。外部データ不正使用対策チームは、情報セキュリティ脅威の専門家と協力して、これらのデータセットが共有されている例を調査し、責任あるホスティングベンダーと協力して削除することで、データがオンライン上で共有されないよう取り組んでいます。
データを安全に保つためにできること
利用者のデータを保護するためにFacebook社が講じる措置に加えて、利用者自身が情報の悪用を防止できるようにしたいと考えています。そのため、既存のプライバシー設定では、利用者自身の情報を公開する範囲や誰が自分の電話番号で検索できるかなどの設定を利用者が管理できるようになっています。また、先日、スクレイピングについての情報や、情報を保護するためにできることについて説明する専用ページをヘルプセンターに開設しました。「プライバシー設定の確認」ツールでは、シェアした内容を誰が見ることができるか、Facebookで自分がどのような方法で検索される可能性があるかなど、プライバシーとセキュリティの設定について説明しています。さらに、プライバシー設定を定期的に見直して、利用者自身の設定が公開したい内容と一致していることを確認いただくことを推奨しています。また、Privacy Matters ページ(英語のみ)では、Facebook社のプライバシーの取り組みについての詳細を提供しており、スクレイピングに対する取り組みや調査結果を公開する予定です。