Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado en: 10/01/2023 10:12

Escrito por: Gonzalo Hernández

VALL-E: así es la IA de Microsoft capaz de simular cualquier voz a partir de una muestra de audio de tan solo tres segundos de duración

Microsoft ha revelado un nuevo modelo de inteligencia artificial capaz de convertir texto a voz, permitiendo simular la voz de una persona a partir de una muestra de audio de apenas tres segundos, VALL-E.

De acuerdo con la compañía, este sistema es capaz de sintetizar el audio de una persona una vez que su voz es aprendida, y lo más interesante es que también puede generar entonaciones para "preservar el tono emocional" del hablante original.

El equipo detrás de VALL-E señala que esta IA se puede utilizar en aplicaciones donde se requiera generar voz en alta calidad a partir de texto, así como en entornos donde se necesite "editar" la voz de una persona y cambiarse por una nueva transcripción de texto, haciéndola decir algo que originalmente no se dijo, además de que también tiene potencial en combinación con otras IA, como GPT3 para la creación de nuevo contenido de audio.

Así funciona VALL-E

Microsoft cataloga a VALL-E como un "modelo de lenguaje neuronal", basado en la tecnología EnCodec anunciada por Meta en 2022.

En el caso de esta nueva IA, no sintetiza el habla manipulando las ondas de audio, sino que analiza cómo suena cada persona, divide la información en componentes discretos denominados como "tokens" usando EnCodec y utiliza datos de su entrenamiento para comparar lo que "conoce" sobre cómo sonaría esa voz si dijera otras frases fuera de la muestra de tres segundos.

…

Lee toda la nota original aquí

Top noticias del 10 de Enero de 2023

Notasbit

Las mejores noticias de tecnología en un sólo lugar

VALL-E: así es la IA de Microsoft capaz de simular cualquier voz a partir de una muestra de audio de tan solo tres segundos de duración

Top noticias del 10 de Enero de 2023

Todo el software a tu alcance: las mejores webs para descargar programas de PC gratis

Nuevo Xiaomi ultrabarato a la vista: esto es todo lo que se sabe del próximo móvil de POCO

El dictado por voz será más fácil de usar en Google Docs

‘Pinocho’ de Guillermo del Toro consigue el Globo de Oro a Mejor película animada

Wordle en español 369, solución: pistas para encontrar la palabra de hoy (normal, científico y tildes)

10 consejos para tener éxito en tus citas online

Twitter está cambiando la forma de ver los tweets desde iOS

VALL-E es la nueva IA de Microsoft que puede imitar cualquier voz