Facebook이 스크래핑에 대처하는 방법

마이크 클락(Mike Clark), 제품 관리 디렉터

Facebook 이용자의 정보를 담고 있는 데이터베이스가 온라인에 공개된 사건으로 인해 데이터 스크래핑에 대한 논란이 이어지면서, Facebook은 지난주 해당 사건과 관련하여 보다 상세한 내용을 공유했습니다. 하지만 그 이후, LinkedIn과 Clubhouse 등 여러 회사의 이용자 정보도 유사한 방식으로 공개된 점을 고려해 스크래핑의 정의와 작동 방법, 그리고 스크래핑으로부터 이용자 정보를 보호하기 위해 저희가 취하고 있는 노력에 대해 추가로 설명드리고자 합니다.

스크래핑이란?

스크래핑은 웹사이트나 앱에서 데이터를 자동 수집하는 행위로, 허가 또는 불허가 스크래핑으로 구분할 수 있습니다. 검색 엔진에서 정보를 검색하는 경우, 웹사이트나 앱의 동의 하에 자동으로 스크래핑된 결과를 보고 있을 가능성이 큽니다. 이는 흔히 ‘크롤링(crawling)’으로도 알려진 스크래핑 기법으로, 인터넷 정보 검색 시스템의 기반이 되는 데이터 수집 방법 중 하나입니다.

Facebook에서 무단으로 데이터를 자동 추출하는 행위는 저희 약관에 위반되는 행위입니다. 하지만, 데이터 자체에 대한 접근이 아주 불가한 것은 아닙니다. 스크래핑된 데이터는 일반 이용자들이 일상 속에서 웹사이트나 앱을 사용하면서 보거나 사용할 수 있는 경우가 대부분입니다. 그러나 Facebook의 사전 허가 없이 자동화 기술을 이용해 저희 제품에서 제공하는 정보를 액세스하거나 수집하는 행위는 허용되지 않습니다.

스크래퍼들은 마치 일반 이용자인 것처럼 행동하고 평범한 사람들의 제품 이용 방식을 모방하기 때문에 감지가 어려울 수 있습니다. 하지만 Facebook은 자동화 기술로 데이터를 무단 취득하는 행위와 데이터의 합법적인 사용을 구분하기 위해 다양한 방법을 활용하고 있습니다. 자세한 내용은 다음과 같습니다.

스크래핑에 대한 Facebook의 대처법

저희는 Facebook 제품에 대한 무단 스크래핑을 방지하기 위해 상당한 노력을 투입하고 있습니다. 우선, 불법 스크래핑 감지, 차단과 억제를 담당하는 데이터 과학자, 애널리스트와 엔지니어를 포함 100명 이상의 직원으로 구성된 전담 EDM(External Data Misuse) 팀을 두고 있습니다.

스크래퍼들은 Facebook 제품을 합법적으로 활용하는 이들의 방식을 모방합니다. 따라서 Facebook 앱과 웹사이트를 즐겨 이용하는 사람들에게 어떠한 피해도 주지 않으면서 스크래핑을 완전히 예방하는 것은 생각보다 어려운 일입니다. 즉, 둘 사이의 적절한 균형을 유지하면서, 보다 다양한 접근 방법으로 스크래핑 공격에 대처해야 한다는 뜻입니다. 스크래핑은 비교적 흔하지만, 그만큼 대처가 까다로운 공격 수법입니다. Facebook은 기존에 합법적으로 제공하는 데이터 수집을 어렵게 하는 등 스크래핑을 미연에 방지하고, 그럼에도 불구하고 불허가 스크래핑이 발생한 경우에는 스크래퍼가 금전적 이득을 취하지 못하도록 막기 위해 보다 총체적인 접근 방법을 적용하고 있습니다.

스크래핑을 보다 어렵게 만드는 첫 번째 방법은 실행 횟수와 데이터 제한입니다. 실행 횟수 제한은 주어진 시간 동안 Facebook 제품을 활용할 수 있는 횟수의 제한을 뜻하며, 데이터 제한은 저희 제품을 정상적으로 이용하는 데 필요한 양보다 더 많은 데이터를 얻지 못하도록 합니다.

물론 이러한 제한 조치는 보호 조치의 첫 단계에 불과하며, 스크래퍼들은 새로운 경로를 이용해 데이터를 탈취하려 할 것입니다. 그렇기 때문에 저희는 스크래핑을 탐지하고 억제할 수 있는 또 다른 방법 개발에 주력하고 있습니다. Facebook의 보안망을 뚫고 침입하고자 하는 스크래퍼들에게 정보를 제공하지 않기 위해 일례로 자동 컴퓨터 활동으로 추정되는 활동 및 행동 패턴 감지하고 이를 차단하고 있습니다.

또한 EDM 팀은 스크래핑 용의자의 활동을 조사하고 파악함으로써 Facebook 시스템을 강화하며, 현재까지 데이터 오용에 대한 다양한 조치를 취했습니다. 대표적인 조치로는 중지서한 발송, 계정 비활성화, 악의적 목적으로 스크래핑에 가담하는 스크래퍼에 대한 소송 제기, 스크래핑된 데이터를 호스팅하는 회사에 대한 삭제 요청 등이 포함됩니다. 정부 차원에서 불법 스크래핑 행위를 조사하고 조치를 취해야 하는 이유이기도 합니다.

Facebook에서 데이터를 무단 수집하는 일부 스크래퍼는 해당 데이터를 온라인 게시판에 공개하기도 하며, 지난 주에 보도된 사례가 이에 해당됩니다. EDM 팀은 사이버 위협 인텔리전스 전문가와 협력해 무단 수집된 데이터세트를 찾아 온라인에 공개되지 못하도록 하고, 책임을 다하는 호스팅 업체의 협력하에 공개된 데이터를 삭제하기 위해 노력하고 있습니다.

개인정보보호를 위해 이용자가 실천할 수 있는 일

Facebook은 이용자의 데이터 보호 조치를 취하는 것 외에도, 이용자에게 더 많은 권한을 부여함으로써 개인정보가 오용될 가능성을 줄이고자 합니다. 공개 범위나 전화번호 검색 가능 여부를 이용자가 직접 설정할 수 있게 한 이유이기도 합니다. 또한 최근에는 ‘고객 센터’에 스크래핑 전용 페이지를 오픈해 스크래핑에 대한 내용과 개인정보보호 실천수칙을 알리고 있습니다. 예를 들어 ‘공개 범위 확인’ 기능을 통해 ‘내가 공유하는 게시물을 볼 수 있는 사람,’ ‘사람들이 Facebook에서 나를 찾을 수 있는 방법’ 등 개인정보 공개 범위를 설정 및 확인할 수 있습니다. Facebook은 모든 이용자가 개인정보 설정 및 공개 범위를 정기적으로 검토해 희망하는 설정 상태와 일치하는지 자주 확인해보기를 권장합니다. 또한 ‘개인정보 보호’ 페이지는 Facebook의 개인정보 보호 이니셔티브에 대한 추가 정보를 제공하며, 향후 스크래핑에 대한 조치와 확인 사항 등에 대해서도 더 자세한 내용을 공유할 예정입니다.



Facebook은 콘텐츠를 맞춤화하고, 광고를 조정 및 측정하고, 안전한 경험을 제공하기 위해 쿠키를 사용합니다. 사이트를 클릭하거나 탐색하면 Facebook이 쿠키를 통해 Facebook 및 외부 플랫폼에서 정보를 수집하는 것에 동의하는 것입니다. 이용할 수 있는 관리 기능을 비롯한 자세한 내용을 쿠키 정책에서 알아보세요.