Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Genbeta

Publicado en: 25/03/2025 09:29

Escrito por: Antonio Vallejo

La IA se ha hecho tan lista que el mejor test que había para comprobar su inteligencia ya no sirve. Han tenido que crear uno nuevo

La IA se ha hecho tan lista que el mejor test que había para comprobar su inteligencia ya no sirve. Han tenido que crear uno nuevo

Existe un benchmark que trata de puntuar la inteligencia de los modelos de IA con una particularidad: su resolución es extremadamente difícil para los modelos de IA, pero fácil para el razonamiento humano.

La primera competición para alcanzar la máxima puntuación de este benchmark (ARC-AGI), fue superada por el modelo o3 (low) de OpenAI en un 75,7% y en un 87,5% (o3 high). A OpenAI le llevó cuatro años pasar en 2020 de un 0% con GPT-3 a un 5% en 2024 con GPT-4o. Y dado que los modelos de razonamiento profundo son cada vez más sofisticados, ARC-AGI vuelve con una versión mejorada de su benchmark que se lo pondrá muy difícil a los modelos de IA del momento, y que también podemos resolver nosotros mismos.

ARC-AGI, un test sorprendentemente difícil para la IA, pero fácil para los humanos

En 2019, François Chollet -creador de Keras, una biblioteca de aprendizaje profundo de código abierto adoptada por más de dos millones de desarrolladores-, publicó 'On the Measure of Intelligence', donde introdujo el 'Corpus de abstracción y razonamiento para la inteligencia general artificial' (ARC-AGI) de referencia para medir la inteligencia.

Desde entonces, se ha consolidado como un test fiable que prueba las capacidades de una IA donde los participantes independientes y compañías ponen a prueba sus soluciones en una competición, la ARC Prize. En 2025, la competición se realizará sobre ARC-AGI 2, con grandes mejoras respecto a su predecesor.






Resultados de múltiples modelos de IA en …

Top noticias del 25 de Marzo de 2025