Existe un benchmark que trata de puntuar la inteligencia de los modelos de IA con una particularidad: su resolución es extremadamente difícil para los modelos de IA, pero fácil para el razonamiento humano.
La primera competición para alcanzar la máxima puntuación de este benchmark (ARC-AGI), fue superada por el modelo o3 (low) de OpenAI en un 75,7% y en un 87,5% (o3 high). A OpenAI le llevó cuatro años pasar en 2020 de un 0% con GPT-3 a un 5% en 2024 con GPT-4o. Y dado que los modelos de razonamiento profundo son cada vez más sofisticados, ARC-AGI vuelve con una versión mejorada de su benchmark que se lo pondrá muy difícil a los modelos de IA del momento, y que también podemos resolver nosotros mismos.
ARC-AGI, un test sorprendentemente difícil para la IA, pero fácil para los humanos
En 2019, François Chollet -creador de Keras, una biblioteca de aprendizaje profundo de código abierto adoptada por más de dos millones de desarrolladores-, publicó 'On the Measure of Intelligence', donde introdujo el 'Corpus de abstracción y razonamiento para la inteligencia general artificial' (ARC-AGI) de referencia para medir la inteligencia.
Desde entonces, se ha consolidado como un test fiable que prueba las capacidades de una IA donde los participantes independientes y compañías ponen a prueba sus soluciones en una competición, la ARC Prize. En 2025, la competición se realizará sobre ARC-AGI 2, con grandes mejoras respecto a su predecesor.
Resultados de múltiples modelos de IA en …