Y si no era suficiente con que hoy Meta hubiera lanzado su nuevo modelo de IA rival de GPT, ahora sabemos también que los investigadores de Microsoft han estado desarrollando un nuevo modelo de IA, VASA-1, capaz de crear avatares hiperrealistas a partir de una imagen estática y un clip de voz... una noticia que destaca no sólo a nivel técnico, sino por sus potenciales implicaciones sociales.
Pero no sólo estamos ante una IA capaz de crear vídeos en los que las expresiones faciales y los movimientos de los labios están sincronizados de manera realista con el audio proporcionado (ya hay varias capaces de hacer eso), sino que VASA-1 también captura emociones y movimientos naturales de la cabeza.
Esto añade una capa adicional de realismo a los vídeos generados, ya que los personajes pueden expresar una gama más amplia de emociones y reacciones más naturales.
Sumemos a eso que los usuarios de VASA-1 tienen la capacidad de manipular varios aspectos del vídeo generado, como la dirección de la mirada del personaje, la distancia percibida y el estado emocional; todo ello permite personalizar los videos para adaptarlos a necesidades específicas o efectos deseados.
Y no menos importante: VASA-1 es eficiente para usos en tiempo real que requieran respuesta inmediata y alta calidad de imagen, siendo capaz de generar vídeos de alta resolución (512x512 píxeles) a velocidades de fotogramas muy altas (hasta 45 fps en modo offline y 40 fps online).
…