Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Genbeta

Publicado en: 10/01/2023 03:28

Escrito por: Antonio Vallejo

Esta IA de Microsoft puede imitar la voz y emociones de una persona a partir de un audio de tres segundos: así funciona VALL-E

Esta IA de Microsoft puede imitar la voz y emociones de una persona a partir de un audio de tres segundos: así funciona VALL-E

Durante los últimos años hemos visto increíbles herramientas basadas en inteligencia artificial en multitud de campos. Empresas como Microsoft también disponen de un sinfín de propuestas en este aspecto, y una de sus más recientes es VALL-E.

VALL-E (no confundirla con DALL-E) es un modelo de lenguaje capaz de generar audio con la misma voz y entonación que el interlocutor. Lo único que necesita la herramienta es un audio de como mínimo tres segundos para que pueda comenzar a procesar.

Una IA capaz de imitar hasta la entonación y emoción de la persona

Las capacidades de este modelo de lenguaje quedan detalladas en el informe publicado por los investigadores. VALL-E ha sido entrenado con más de 60.000 horas de audios en inglés. A través de esta tecnología el usuario puede sintetizar un audio personalizado a partir de la voz de una persona distinta. De hecho, en la investigación reflejan el éxito de las pruebas realizadas.







"Los resultados de los experimentos muestran que VALL-E supera significativamente al sistema TTS zero-shot más puntero en términos de naturalidad del habla y similitud del hablante. "Además, encontramos que VALL-E podría preservar la emoción del orador y el entorno acústico del mensaje acústico en síntesis".










En Genbeta

Cinco herramientas para escribir textos con inteligencia artificial y ahorrar tiempo


A través de su página de GitHub existen multitud de ejemplos en …

Top noticias del 10 de Enero de 2023