NovaSky presenta Sky-T1, un modelo de razonamiento de código abierto

En un avance significativo en el campo de la inteligencia artificial, el equipo de investigación de NovaSky, basado en el Laboratorio de Computación en la Nube de UC Berkeley, ha presentado su modelo de razonamiento Sky-T1-32B-Preview. Este modelo se posiciona como un competidor directo de versiones anteriores de OpenAI, destacándose en varios benchmarks clave.

Un modelo verdaderamente de código abierto

Sky-T1 se distingue por ser el primer modelo de razonamiento que puede ser replicado desde cero. El equipo de NovaSky ha hecho accesible no solo el modelo, sino también el conjunto de datos utilizado para su entrenamiento y el código necesario para reproducirlo. Según el equipo, Sky-T1-32B-Preview fue entrenado por menos de 450 dólares, lo que demuestra que es posible desarrollar capacidades de razonamiento de alto nivel de manera asequible y eficiente.

Ventajas de los modelos de razonamiento

A diferencia de la mayoría de los modelos de IA, los modelos de razonamiento tienen la capacidad de verificar sus propias respuestas, lo que les permite evitar errores comunes. Aunque estos modelos suelen tardar más en llegar a soluciones, su fiabilidad en áreas como la física, la ciencia y las matemáticas es notable. El equipo de NovaSky utilizó otro modelo de razonamiento, el QwQ-32B-Preview de Alibaba, para generar los datos iniciales de entrenamiento, y luego curó esta mezcla de datos utilizando GPT-4o-mini de OpenAI para refactorizar la información en un formato más manejable.

Desempeño en comparación con otros modelos

El entrenamiento del modelo de 32 mil millones de parámetros Sky-T1 tomó aproximadamente 19 horas utilizando un rack de 8 GPUs Nvidia H100. Según el equipo, Sky-T1 supera a una versión preliminar de OpenAI en el conjunto de problemas matemáticos MATH500 y también se desempeña mejor en un conjunto de problemas difíciles de LiveCodeBench. Sin embargo, el modelo no alcanzó el rendimiento de la versión preliminar de OpenAI en el conjunto GPQA-Diamond, que incluye preguntas de física, biología y química que se esperarían de un graduado de doctorado.

El futuro de NovaSky y el desarrollo de modelos de razonamiento

A pesar de que el modelo de OpenAI es más potente que la versión preliminar de Sky-T1, el equipo de NovaSky considera que este lanzamiento es solo el comienzo de su viaje hacia el desarrollo de modelos de código abierto con capacidades avanzadas de razonamiento. En su comunicado, el equipo afirmó: “En el futuro, nos enfocaremos en desarrollar modelos más eficientes que mantengan un rendimiento sólido en razonamiento y exploraremos técnicas avanzadas que mejoren aún más la eficiencia y precisión de los modelos en el momento de la prueba”.