Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Microsiervos

Publicado en: 12/04/2018 17:17

Escrito por: [email protected] (Alvy)

Avances en reconocimiento de voz: el problema de focalizarse en una voz concreta en un entorno ruidoso

Un par de vídeos de Google Research muestran lo que parece un buen avance a la hora de separar dos o más voces en una señal de audio. Es algo en lo que los humanos somos muy buenos y capaces –lo hacemos sin darnos cuenta– pero un gran problema para las máquinas y los sistemas de reconocimiento de voz. Al menos hasta ahora.

El problema se conoce tradicionalmente como el efecto de la fiesta/cóctel (cocktail party) o de la «sala ruidosa». Se define como la capacidad de focalizar la atención auditiva en un estímulo particular, ignorando el resto. Es tan curioso como que es lo que permite a alguien distinguir su propio nombre cuando lo oye mencionado en un entorno ruidoso y caótico aunque ni siquiera estuviera prestando atención. (Y saber más sobre «cómo funciona» eso le vendría muy bien a Siri, Alexa y compañía).

El trabajo completo de estos ingenieros de Google se titula A Speaker-Independent Audio-Visual Model for Speech Separation (aquí el trabajo en PDF). Tal y como explican la técnica consiste en un análisis del espectro de audio y de las imágenes de las personas que están hablando, ofreciendo como resultado una señal limpia con cada una de las voces.

El enfoque del trabajo ha sido eminentemente práctico: dicen que el sistema de aprendizaje ha sido entrenado con escenarios típicos entre los que se han incluido «debates y entrevistas acaloradas, barras de bar y niños gritando» (ahí es nada). Lo único que hace falta es elegir la …

Top noticias del 12 de Abril de 2018