En los últimos años hemos visto muchos ejemplos de redes neuronales capaces de resolver toda clase de problemas difíciles. Pero muchas veces esto se hace a través de programas que entregan los resultados para que sean analizados por los seres humanos.
En el caso que nos ocupa veremos a una mano robótica que resuelve el cubo de Rubik aplicando un entrenamiento hecho sobre una red neuronal. Realmente el trabajo es fantástico.
La arquitectura de la mano robótica tiene -evidentemente- una forma de ver el cubo, que son tres redes de visión, que determinan la posición que ocupa el cubo en la mano robótica y además, se tiene otra red más que controla la mano electrónica.
El entrenamiento de las redes neuronales se hizo previamente y lo que vemos es el resultado final de dichas redes ya trabajando y entrenadas como decenas de miles de repeticiones. La red neuronal controla la mano que usó aprendizaje reforzado pero en un entorno simulado. Esto implica un problema, no muy fácil de resolver, que es la variación que se encuentra cuando el modelo trabaja en el mundo real.
La solución propuesta por el equipo de OpenAI la bautizaron como ADR (Automatic Domain Randomization). En lugar de solamente variar el problema un poco, los parámetros de la simulación se cambiaron, lo que implicó no nada más revolver el cubo, sino la dinámica de todo el sistema.Primero el entorno está fijo y el robot aprende a manipular el cubo. Después de este entrenamiento inicial, empieza la parte …