Presentamos Voicebox: La IA más versátil para la generación del habla

Voicebox es un modelo generativo de IA que puede ayudar con la edición, sampling y estilización de audio.
Este tipo de tecnología podrá utilizarse en el futuro para ayudar a los creadores a editar fácilmente pistas de audio, permitir a las personas con discapacidad visual escuchar los mensajes escritos de sus amigos en sus voces y que las personas se comuniquen en cualquier idioma extranjero usando su propia voz.

Hoy anunciamos un gran avance en la IA generativa del habla. Hemos desarrollado Voicebox, un modelo de IA de última generación que puede realizar tareas de generación del habla — como edición, sampling y estilización — para las que no fue entrenado específicamente pero puede resolver a través del aprendizaje en contexto.

Voicebox puede producir fragmentos de audio de alta calidad y editar audio pregrabado — como eliminar bocinas de un coche o el ladrido de un perro —, todo ello conservando el contenido y el estilo del audio. Además, el modelo es multilingüe y puede producir habla en seis idiomas.

En el futuro, modelos generativos multipropósitos de IA como Voicebox podrán dar voces naturales a asistentes virtuales y personajes no jugadores del metaverso. Podrán permitir a personas con discapacidad visual escuchar mensajes escritos de sus amigos, leídos con IA en sus voces, dar a los creadores nuevas herramientas para crear y editar fácilmente pistas de audio para videos y muchos más.

La versatilidad de Voicebox permite realizar una gran variedad de tareas:

Síntesis de contexto de texto a habla: Utilizando una muestra de audio de tan solo un par de segundos, Voicebox puede adaptar el estilo de audio y utilizarlo para la generación de texto a habla.

Edición de habla y reducción de ruido: Voicebox puede recrear una parte del discurso interrumpida por ruido o sustituir palabras mal pronunciadas sin tener que volver a grabar un discurso completo. Por ejemplo, puedes identificar un segmento de un discurso interrumpido por los ladridos de un perro, recortarlo y pedir a Voicebox que vuelva a generar ese segmento, como un borrador para la edición de audio.

Transferencia de estilo entre idiomas: Cuando se le da una muestra del habla de alguien y un pasaje de texto en inglés, francés, alemán, español, polaco o portugués, Voicebox puede leer el texto en cualquiera de esos idiomas, incluso si la muestra del habla y el texto están en idiomas diferentes. Esta capacidad podrá utilizarse en el futuro para ayudar a las personas a comunicarse de forma natural y auténtica, aunque no hablen el mismo idioma.

Muestreo de habla diversa: Al haber aprendido de datos diversos, Voicebox puede generar un habla más representativa de cómo se expresan las personas en el mundo real, en los seis idiomas mencionados.

Voicebox es un importante avance en nuestra investigación sobre IA generativa, y nos emociona seguir nuestro trabajo en el ámbito del audio y ver cómo otros investigadores se basan en este.

Conoce más sobre Voicebox aquí.

Noticias relacionadas