Hoje, estamos anunciando um avanço na IA generativa para fala. Desenvolvemos o Voicebox, um modelo de IA de ponta que pode executar tarefas de geração de fala – como edição, amostragem e estilização – para as quais não foi treinado especificamente para executar por meio de aprendizado contextual.
O Voicebox pode produzir clipes de áudio de alta qualidade e editar um áudio pré-gravado, bem como remover buzinas de carros ou latidos de cães, preservando o estilo e conteúdo. O modelo também é multilíngue e pode produzir fala em seis idiomas.
No futuro, os modelos de IA generativa multiuso, como o Voicebox, poderão fornecer vozes com som natural a assistentes virtuais e personagens não-jogáveis no metaverso. Além disso, permitirão que pessoas com deficiência visual ouçam mensagens escritas por amigos, lidas em suas vozes originais. Outras funcionalidades incluem oferecer aos criadores novas ferramentas para criar e editar facilmente conteúdos de áudio para vídeos, entre outras.
A versatilidade do Voicebox permite uma variedade de tarefas, incluindo:
Síntese de texto para fala em contexto: Usando uma amostra de áudio de apenas dois segundos, o Voicebox pode combinar o estilo do áudio e usá-lo para a geração de texto para fala.
Edição de fala e redução de ruído: O Voicebox pode recriar uma parte da fala que foi interrompida por ruído ou substituir palavras mal pronunciadas, sem precisar regravar uma fala inteira. Por exemplo, você pode identificar um trecho de um discurso que foi interrompido pelo latido de um cachorro, cortá-lo e instruir o Voicebox a gerar novamente esse trecho – como uma borracha para edição de áudio.
Transferência de estilo entre idiomas: Ao receber uma amostra da fala de alguém e o trecho de um texto em inglês, francês, alemão, espanhol, polonês ou português, o Voicebox pode produzir uma leitura do texto em qualquer um desses idiomas, mesmo que a amostra da fala e o texto estejam em idiomas diferentes. Esse recurso poderá ser usado no futuro para ajudar as pessoas a se comunicarem de forma natural e autêntica, mesmo que não falem os mesmos idiomas.
Amostragem de fala diversificada: Tendo aprendido com dados diversos, o Voicebox pode gerar uma fala mais representativa de como as pessoas falam no mundo real e nos seis idiomas listados acima.
O Voicebox é um importante passo em nossa pesquisa de IA generativa e, esperamos continuar nossos estudos no espaço de áudio, além de ver como outros pesquisadores se baseiam em nosso trabalho.
Clique aqui para acessar mais informações sobre o Voicebox.