Microsoft ha revelado un nuevo modelo de inteligencia artificial capaz de convertir texto a voz, permitiendo simular la voz de una persona a partir de una muestra de audio de apenas tres segundos, VALL-E.
De acuerdo con la compañía, este sistema es capaz de sintetizar el audio de una persona una vez que su voz es aprendida, y lo más interesante es que también puede generar entonaciones para "preservar el tono emocional" del hablante original.
El equipo detrás de VALL-E señala que esta IA se puede utilizar en aplicaciones donde se requiera generar voz en alta calidad a partir de texto, así como en entornos donde se necesite "editar" la voz de una persona y cambiarse por una nueva transcripción de texto, haciéndola decir algo que originalmente no se dijo, además de que también tiene potencial en combinación con otras IA, como GPT3 para la creación de nuevo contenido de audio.
Así funciona VALL-E
Microsoft cataloga a VALL-E como un "modelo de lenguaje neuronal", basado en la tecnología EnCodec anunciada por Meta en 2022.
En el caso de esta nueva IA, no sintetiza el habla manipulando las ondas de audio, sino que analiza cómo suena cada persona, divide la información en componentes discretos denominados como "tokens" usando EnCodec y utiliza datos de su entrenamiento para comparar lo que "conoce" sobre cómo sonaría esa voz si dijera otras frases fuera de la muestra de tres segundos.
…