Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado en: 12/04/2018 17:17

Avances en reconocimiento de voz: el problema de focalizarse en una voz concreta en un entorno ruidoso

Un par de vídeos de Google Research muestran lo que parece un buen avance a la hora de separar dos o más voces en una señal de audio. Es algo en lo que los humanos somos muy buenos y capaces –lo hacemos sin darnos cuenta– pero un gran problema para las máquinas y los sistemas de reconocimiento de voz. Al menos hasta ahora.

El problema se conoce tradicionalmente como el efecto de la fiesta/cóctel (cocktail party) o de la «sala ruidosa». Se define como la capacidad de focalizar la atención auditiva en un estímulo particular, ignorando el resto. Es tan curioso como que es lo que permite a alguien distinguir su propio nombre cuando lo oye mencionado en un entorno ruidoso y caótico aunque ni siquiera estuviera prestando atención. (Y saber más sobre «cómo funciona» eso le vendría muy bien a Siri, Alexa y compañía).

El trabajo completo de estos ingenieros de Google se titula A Speaker-Independent Audio-Visual Model for Speech Separation (aquí el trabajo en PDF). Tal y como explican la técnica consiste en un análisis del espectro de audio y de las imágenes de las personas que están hablando, ofreciendo como resultado una señal limpia con cada una de las voces.

El enfoque del trabajo ha sido eminentemente práctico: dicen que el sistema de aprendizaje ha sido entrenado con escenarios típicos entre los que se han incluido «debates y entrevistas acaloradas, barras de bar y niños gritando» (ahí es nada). Lo único que hace falta es elegir la …

Lee toda la nota original aquí

Top noticias del 12 de Abril de 2018

Llegó al Perú la app de televisión que mide el rating social

‘Plata por data’: la fórmula que quiere inquietar a Facebook y LinkedIn

Las compañías con planes de ciberseguridad afrontan proyectos de innovación con más confianza

Las agencias creativas tienen miedo a la colaboración

La conquista del hogar conectado: ¿un asistente para dominarlos a todos?

La agitación incesante de la Red

Nokia 3 comienza a recibir Android 8.0 Oreo

Que es OLED