Nuevas pruebas de inteligencia artificial desafían a los modelos actuales

La Fundación Arc Prize, cofundada por el renombrado investigador de inteligencia artificial François Chollet, ha dado un paso significativo en la evaluación de la inteligencia de los modelos de IA. En un reciente anuncio, se presentó el test ARC-AGI-2, diseñado para medir la inteligencia general de los modelos de IA de manera más efectiva que sus predecesores.

Un enfoque innovador para medir la inteligencia

El nuevo test ha demostrado ser un reto para la mayoría de los modelos de IA existentes. Según el ranking de la Fundación Arc, modelos de razonamiento como el o1-pro de OpenAI y el R1 de DeepSeek han obtenido puntuaciones entre el 1% y el 1.3% en el ARC-AGI-2. Modelos no basados en razonamiento, como GPT-4.5 y Claude 3.7 Sonnet, también han tenido un rendimiento similar, rondando el 1%.

El test consiste en problemas similares a rompecabezas donde la IA debe identificar patrones visuales a partir de una colección de cuadrados de diferentes colores y generar la cuadrícula de respuestas correcta. Este enfoque está diseñado para forzar a la IA a adaptarse a nuevos problemas que no ha visto antes, lo que representa un cambio significativo en la forma en que se mide la inteligencia artificial.

Comparativa con pruebas anteriores

Chollet ha afirmado que el ARC-AGI-2 es un mejor indicador de la inteligencia real de un modelo de IA en comparación con la primera versión del test, ARC-AGI-1. Este último había sido criticado por permitir que los modelos de IA dependieran de la potencia de cálculo en lugar de demostrar una verdadera capacidad de razonamiento. En contraste, el nuevo test introduce una métrica de eficiencia, obligando a los modelos a interpretar patrones en tiempo real en lugar de confiar en la memorización.

La Fundación Arc Prize ha realizado pruebas con más de 400 personas para establecer una línea base humana, donde, en promedio, los paneles de participantes acertaron el 60% de las preguntas, superando con creces las puntuaciones de los modelos de IA.

El futuro de la inteligencia artificial

La llegada del ARC-AGI-2 se produce en un momento en que muchos en la industria tecnológica piden nuevos estándares para medir el progreso de la IA. Thomas Wolf, cofundador de Hugging Face, ha señalado que la industria carece de pruebas adecuadas para evaluar rasgos clave de la llamada inteligencia general artificial, incluida la creatividad.

Además del nuevo test, la Fundación Arc Prize ha anunciado un concurso para 2025, desafiando a los desarrolladores a alcanzar un 85% de precisión en el ARC-AGI-2 mientras gastan solo $0.42 por tarea. Este desafío no solo busca impulsar la innovación en el campo de la IA, sino también establecer un nuevo estándar en la evaluación de su inteligencia.