¿Qué ves? «Unas tijeras sobre una mesa»
Vi pasar por Twitter un chiste sobre Visual Dialog, un simpático experimento a modo de agente de inteligencia artificial que combina lenguaje conversacional con contenido visual. La idea es simple: le das una fotografía y te dice lo que ve. Y luego puedes preguntar al respecto.
Lo cierto es que el sistema –cuyo código fuente puede descargarse de Github– tiene ya un par de añitos; y aunque hemos visto muchos bots similares en los últimos tiempos con los que echar unas risas no es menos cierto es que acaban funcionando mejor con el paso del tiempo, cuando se afinan y alimentan con suficientes datos. La parte «conversacional» la da además cierto punto de interés porque se puede comprender mejor lo que la IA está «viendo» en las imágenes.
En el chiste original en vez de la «Sarah Connor de Terminator armada con un AK-47» el bot creía ver «una mujer con un monopatín». Desde luego no reconocía al icónico personaje. Y cuando le decían «pues vaya monopatín más raro» simplemente contestaba «sí.» En otros casos la AI acierta a medias: en la foto de arriba ve «una persona delante de un edificio» (en realidad es un cartel) y reconoce no saber cómo de grande es la persona, porque «sólo puede verla parcialmente, no entera».
En otros casos acierta con éxito: bicicletas, grupos de personas en la calle son fáciles de identificar. O a veces acierta con pequeños fallos: en este otro ejemplo ve …