So gehen wir gegen Scraping vor

5 Jahren ago

Von Mike Clark, Product Management Director

Letzte Woche haben wir über eine öffentliche Datenbank berichtet, die Informationen von Facebook-Nutzer*innen enthält. Diese Online-Datenbank hat eine Diskussion über das Thema Daten-Scraping ausgelöst. Nachdem in der Zwischenzeit ähnliche Fälle von diversen anderen Plattformen wie LinkedIn und Clubhouse bekannt wurden, möchten wir den Begriff Scraping erklären und erläutern, wie dieses Verfahren funktioniert und mit welchen Maßnahmen wir bei Facebook Scraping verhindern, um die Daten unserer Nutzer*innen zu schützen.

Was ist Scraping?

Bei Scraping handelt es sich um die erlaubte oder unerlaubte automatisierte Sammlung von Daten einer Website oder App. Jedes Mal, wenn du z.B. eine Suchmaschine nutzt, greifst du wahrscheinlich auf Daten zu, die auf automatisierte Weise mit Zustimmung der Website oder App gescrapt wurden. Diese als Crawling bekannte Form des Scrapings trägt dazu bei, das Internet durchsuchbar zu machen.

Der Einsatz automatisierter Prozesse zum Extrahieren von Daten auf Facebook ohne unsere Zustimmung stellt einen Verstoß gegen unsere Nutzungsbedingungen dar. Die Daten selbst sind nicht notwendigerweise vertraulich, denn gescrapte Daten sind oft allgemein verfügbar, sodass jeder bei der täglichen Nutzung der Website oder App darauf zugreifen können. Scraper dürfen jedoch ohne unsere vorherige Zustimmung nicht auf unsere Produkte zugreifen oder automatisiert Daten sammeln.

Scraper imitieren in der Regel die Art und Weise, wie Menschen ein Produkt üblicherweise verwenden, damit ihre Aktivität nicht auffällt. Deshalb ist es schwierig, sie aufzuspüren. Wir haben jedoch eine Reihe von Methoden entwickelt, um unautorisierte automatisierte Aktivitäten von legitimer Nutzung zu unterscheiden, die wir im Folgenden vorstellen möchten.

So gehen wir gegen Scraping vor

Unser dediziertes EDM-Team (External Data Misuse) mit mehr als 100 Mitarbeiter*innen – darunter Datenwissenschaftler*innen, Analyst*innen und IT-Ingenieur*innen – befasst sich vorrangig mit der Aufgabe, Scraping zu erkennen, zu blockieren und zukünftig zu verhindern.

Da Scraper den normalen menschlichen Umgang mit unseren Produkten imitieren, werden wir nie in der Lage sein, jegliches Scraping vollständig zu unterbinden, ohne gleichzeitig die Möglichkeiten der Menschen zu beeinträchtigen, unsere Apps und Websites wie gewünscht zu nutzen. Daher bemühen wir uns, hier einen Mittelweg mit unterschiedlichen Ansätzen zu verfolgen, um gegen Scraping vorzugehen. Da Scraping häufig auftritt und gleichzeitig eine komplexe Herausforderung darstellt, verfolgen wir einen ganzheitlichen Ansatz, um unseren Widersacher*innen einen Schritt voraus zu sein. Kurzum verfolgen wir das Ziel, Scrapern den Zugriff auf Daten aus unseren Diensten zu erschweren. Für den Fall, dass es ihnen dennoch gelingen sollte, sorgen andere Maßnahmen dafür, dass sie möglichst keinen oder nur geringen Nutzen aus den Daten ziehen können.

Eine Methode, mit der wir gegen Scraping vorgehen, ist der Einsatz von Übertragungs- und Datenbeschränkungen. Übertragungslimits begrenzen die Interaktionen mit unseren Produkten innerhalb eines bestimmten Zeitraums, während Datenbeschränkungen verhindern, dass Nutzer*innen mehr Daten erhalten, als sie für die normale Verwendung unserer Produkte benötigen würden.

Solche Begrenzungen bilden nur eine erste Schutzebene und wir sind uns bewusst, dass Scraper ständig nach neuen Wegen suchen, um an Daten zu gelangen. Deshalb befassen wir uns auch intensiv mit der Entwicklung anderer Methoden zur Erkennung und Verhinderung von Scraping. Wir werden nicht auf alle Maßnahmen eingehen, da wir Scrapern nicht dabei behilflich sein wollen, unsere Schutzmaßnahmen zu umgehen. Um ein Beispiel zu nennen: wir suchen nach Aktivitäts- und Verhaltensmustern, die typischerweise mit automatisierten Computeraktivitäten in Verbindung gebracht werden, und unterbinden diese.

Unser EDM-Team untersucht außerdem mutmaßliche Scraper, um mehr über deren Verhalten zu erfahren und unsere Systeme robuster zu machen. Wir haben zahlreiche Maßnahmen gegen Datenmissbrauch ergriffen. Unter anderem versenden wir Unterlassungsaufforderungen, sperren Konten und gehen gerichtlich gegen Scraper und ihre dreisten Praktiken vor. Darüber hinaus fordern wir Unternehmen, auf deren Systemen gescrapte Daten gehostet werden, auf, diese zu entfernen. Deshalb ist es auch wichtig, dass Regierungen sich intensiver mit diesem Thema auseinandersetzen und gegen illegale Scraping-Aktivitäten vorgehen.

Scraper, die missbräuchlich Daten von Facebook sammeln, stellen diese Daten manchmal in Online-Foren zur Verfügung – wie in dem Fall, über den vor Kurzem berichtet wurde. Das EDM-Team versucht zu verhindern, dass solche Daten online offengelegt werden, indem es gemeinsam mit Datenforensiker*innen nach solchen Datensätzen im Internet sucht und sich mit den verantwortlichen Hosting-Anbieter*innen in Verbindung setzt, damit sie die Daten vom Netz nehmen.

Wie du deine Daten schützen kannst

Neben den Maßnahmen, die wir zum Schutz deiner Daten ergreifen, möchten wir auch unseren Nutzer*innen Hinweise geben, wie sie den Missbrauch ihrer Daten erschweren können. Aus diesem Grund ist es z.B. möglich, in den Einstellungen anzupassen, welche Informationen öffentlich sind oder wer sie anhand ihrer Telefonnummer suchen kann. Wir haben außerdem kürzlich eine eigene Seite in unserem Hilfe-Bereich eingerichtet, um Menschen über Scraping zu informieren und ihnen Tipps zu geben, wie sie ihre Daten schützen können. Zum Beispiel führt dich unsere Funktion „Privatsphäre-Check“ durch deine Privatsphäre- und Sicherheitseinstellungen, einschließlich der Punkte „Wer kann deine Beiträge sehen?“ und „Bestimme, wer dich finden kann“. Wir empfehlen allen Nutzer*innen, ihre Datenschutzeinstellungen regelmäßig zu überprüfen, um sie fortlaufend an ihre aktuellen Präferenzen anzupassen. Darüber hinaus bietet unsere Seite Privacy Matters weitere Einblicke in unsere Datenschutzinitiativen. Wir planen, hier künftig mehr über unsere Maßnahmen gegen Scraping und unsere diesbezüglichen Erkenntnisse zu veröffentlichen.