Criando um conjunto de dados e um desafio para deepfakes

Por Mike Schroepfer, Vice-presidente de Tecnologia

Conjuntos de dados e benchmarks têm sido algumas das ferramentas mais eficazes para acelerar o progresso da Inteligência Artificial. O momento atual do aprendizado de máquina tem sido alimentado em parte pelo benchmark da ImageNet. Os recentes avanços no Processamento de Linguagem Natural (NLP, na sigla em Inglês) têm sido acelerados pelos benchmarks GLUE e SuperGLUE.

As técnicas do “deepfake”, que mostram vídeos realistas gerados por Inteligência Artificial de pessoas reais fazendo e dizendo coisas fictícias, têm implicações significativas para determinar a legitimidade das informações apresentadas online. No entanto, a indústria de tecnologia não possui um grande conjunto de dados ou benchmark para detectar esses conteúdos. Queremos fomentar mais pesquisa e desenvolvimento nessa área e garantir que existam melhores ferramentas de código aberto para detectar as deepfakes. Por isso, o Facebook, a The Partnership on AI, a Microsoft e acadêmicos da Cornell Tech, MIT, Oxford, UC Berkeley, Universidade de Maryland, College Park e Universidade de Albany-SUNY estão se unindo para criar o Desafio para Detecção de Deepfake.

O objetivo do desafio é produzir uma tecnologia que todos possam usar para detectar melhor quando a Inteligência Artificial for usada para enganar as pessoas.

O Desafio para Detecção de Deepfake incluirá um conjunto de dados e uma tabela de classificação, além de financiamentos e prêmios, para estimular a indústria a criar novas maneiras de detectar e impedir que mídias manipuladas geradas através de Inteligência Artificial sejam usadas para enganar pessoas. A governança do desafio será facilitada e supervisionada pelo novo Comitê Gestor de Inteligência Artificial e Integridade de Mídia da The Partnership on AI, composto por uma ampla coalizão intersetorial, incluindo Facebook, WITNESS, Microsoft e outras organizações da sociedade civil e de tecnologia, mídia e comunidade acadêmica.

É importante termos dados disponíveis gratuitamente para uso da comunidade, cedidos com consentimento claro dos participantes e poucas restrições de uso. É por isso que o Facebook está contratando um conjunto de dados que contará com pessoas pagas, com o devido consentimento, para contribuir com o desafio. Nenhum dado de usuário do Facebook será usado nesse conjunto de dados. Também estamos financiando colaborações em pesquisas e prêmios para o desafio como forma de incentivar uma maior participação. No total, estamos dedicando mais de US$10 milhões para financiar esse esforço da indústria.

Para garantir a qualidade do conjunto de dados e dos parâmetros do desafio, eles serão inicialmente testados em uma sessão de trabalho técnico direcionada na Conferência Internacional sobre Visão Computacional, em outubro deste ano. O lançamento completo do conjunto de dados e do desafio será na Conferência sobre Sistemas de Processamento de Informações Neurais (NeurIPS), em dezembro. Também participaremos do desafio, mas não aceitaremos nenhum prêmio em dinheiro.

Siga nosso site para atualizações sobre a iniciativa.

Este é um problema em constante evolução, assim como spam ou outros desafios adversos, e nossa esperança é que, ao ajudar a indústria e a comunidade de Inteligência Artificial a se unirem, possamos progredir juntos mais rapidamente.

Pedimos para que especialistas externos compartilhassem suas opiniões sobre este projeto e estamos incluindo seus comentários a seguir.

Apoio Acadêmico

“Para passar da era da informação para a era do conhecimento, devemos melhorar a distinção do real e do falso, recompensar conteúdo confiável sobre conteúdo não confiável e educar a próxima geração em esforços de pesquisa da indústria, universidade e ONGs para desenvolver e operacionalizar tecnologia que pode distinguir com rapidez e precisão qual conteúdo é autêntico.” – Hany Farid, professor no Departamento de Engenharia Elétrica e Ciência da Computação e na Escola da Informação, UC Berkeley

“As pessoas manipulam imagens praticamente desde que a fotografia existe. Mas agora é possível para quase qualquer um criar e passar conteúdos falsos para um público de massa. O objetivo desta competição é criar sistemas de Inteligência Artificial que possam detectar as leves imperfeições de uma imagem manipulada e expor sua representação fraudulenta da realidade.” – Antonio Torralba, professor de Engenharia Elétrica e Ciência da Computação e diretor do MIT Quest for Intelligence

“Como vivemos na era multimídia, ter informações com integridade é crucial para nossas vidas. Dados os recentes desenvolvimentos que permitem gerar informações manipuladas (texto, imagens, vídeos e áudio) em escala, precisamos do envolvimento total da comunidade de pesquisa – em um ambiente aberto – para desenvolver métodos e sistemas que possam detectar e mitigar os efeitos negativos de multimídia manipulada. Ao disponibilizar um grande conjunto de mídias genuínas e manipuladas, o desafio proposto permitirá à comunidade de pesquisa lidar coletivamente com essa crise iminente.” – Rama Chellappa, professor Engenharia, Universidade de Maryland

“Para efetivamente encaminhar mudanças e resolver problemas, acreditamos que é fundamental que a academia e a indústria estejam juntas em um ambiente aberto e colaborativo. Na Cornell Tech, nossa pesquisa se concentra em preencher essa lacuna e abordar o impacto social da tecnologia na era digital, e o Desafio para Detecção de Deepfake é um exemplo perfeito disso. Trabalhando com líderes da indústria de tecnologia e colegas acadêmicos, estamos desenvolvendo uma fonte de dados abrangente que nos permitirá identificar mídias falsas e, então, levar à criação de ferramentas e soluções para combatê-las. Estamos orgulhosos de fazer parte deste grupo e compartilhar a fonte de dados publicamente, permitindo que qualquer pessoa aprenda e expanda a partir dessa pesquisa.” – Serge Belongie, reitor associado e professor da Cornell Tech.

“A mídia manipulada colocada na internet para criar teorias da conspiração e manipular as pessoas está se tornando um tema de importância global. Acredito que precisamos urgentemente de novas ferramentas para detectar e caracterizar essa desinformação. Por isso, estou feliz por fazer parte de uma iniciativa que busca mobilizar a comunidade de pesquisa em torno desses objetivos e desafiar as fronteiras da ciência. ”- Philip HS Torr, professor do Departamento de Ciência da Engenharia, Universidade de Oxford

“Embora as deepfakes possam parecer reais, o fato de elas serem geradas por um algoritmo em vez de serem eventos reais capturados por uma câmera significa que elas ainda podem ser detectadas e que podem ter sua procedência verificada. Diversos métodos novos e promissores para encontrar e mitigar os efeitos nocivos das deepfakes têm surgido, incluindo procedimentos para adicionar ‘digitais virtuais’ em filmagens para contribuir na verificação da sua autenticidade. Assim como qualquer problema complexo, é preciso um esforço conjunto da comunidade técnica, das agências de governo, da mídia, das empresas que gerenciam plataformas e de todos os usuários online para combater seu impacto negativo.”- Siwei Lyu, professor da Faculdade de Engenharia e Ciências Aplicadas da Universidade de Albany-State Universidade de Nova York

“A tecnologia para manipular imagens está avançando mais rápido do que nossa capacidade de dizer o que é real e o que foi manipulado. Um problema grande como esse não será resolvido por uma única pessoa. Competições abertas como esta incentivam a inovação ao reunir a inteligência coletiva do mundo sob um objetivo aparentemente impossível.”- Phillip Isola, professor assistente de Engenharia Elétrica e Ciência da Computação na Bonnie & Marty (1964) Tenenbaum CD, MIT

Notícias relacionadas