Deep Cogito y sus modelos de IA híbridos

En un mundo donde la inteligencia artificial (IA) avanza a pasos agigantados, la reciente aparición de Deep Cogito ha captado la atención de expertos y entusiastas. Esta nueva empresa ha desarrollado una familia de modelos de IA que se pueden alternar entre modos de razonamiento y no razonamiento, ofreciendo una solución innovadora para los desafíos actuales en el campo de la IA.

La promesa de los modelos de razonamiento

Los modelos de razonamiento, como el o1 de OpenAI, han demostrado ser efectivos en áreas complejas como las matemáticas y la física. Su capacidad para verificar hechos y resolver problemas de manera metódica los convierte en herramientas valiosas. Sin embargo, este tipo de razonamiento conlleva un costo significativo en términos de computación y latencia. Por esta razón, laboratorios como Anthropic están explorando arquitecturas de modelos híbridos que combinan componentes de razonamiento con elementos estándar, permitiendo respuestas rápidas a preguntas simples mientras dedican más tiempo a consultas más desafiantes.

Modelos híbridos de Deep Cogito

Todos los modelos de Deep Cogito, denominados Cogito 1, son híbridos. La empresa afirma que estos modelos superan a los mejores modelos abiertos de tamaño similar, incluidos los de Meta y la startup china DeepSeek. Cada modelo tiene la capacidad de responder directamente o reflexionar antes de dar una respuesta, similar a los modelos de razonamiento. Según la empresa, estos modelos fueron desarrollados por un pequeño equipo en aproximadamente 75 días y varían en tamaño desde 3 mil millones hasta 70 mil millones de parámetros, con planes de lanzar modelos de hasta 671 mil millones de parámetros en el futuro cercano.

Desarrollo y futuro de Deep Cogito

Es importante destacar que Cogito 1 no fue desarrollado desde cero. Deep Cogito se basó en los modelos abiertos de Llama de Meta y Qwen de Alibaba, aplicando enfoques de entrenamiento novedosos para mejorar el rendimiento de estos modelos base y habilitar el razonamiento alternable. Según las pruebas internas de la empresa, el modelo más grande, Cogito 70B, con razonamiento, supera al modelo de razonamiento R1 de DeepSeek en varias evaluaciones de matemáticas y lenguaje. Además, Cogito 70B con razonamiento desactivado también supera al modelo Llama 4 Scout de Meta en LiveBench, una prueba de IA de propósito general.

Todos los modelos Cogito 1 están disponibles para descarga o uso a través de APIs en proveedores de nube como Fireworks AI y Together AI. La empresa se encuentra en las primeras etapas de su curva de escalado, utilizando solo una fracción de la capacidad de computación normalmente reservada para el entrenamiento continuo de modelos de lenguaje grandes. En su blog, Deep Cogito menciona que están investigando enfoques complementarios de post-entrenamiento para la auto-mejora.

Fundada en junio de 2024 en San Francisco, Deep Cogito tiene como cofundadores a Drishan Arora y Dhruv Malhotra, quienes cuentan con experiencia en Google y DeepMind. Con el respaldo de South Park Commons, la empresa tiene la ambiciosa meta de construir una superinteligencia general, entendida como una IA capaz de realizar tareas mejor que la mayoría de los humanos y descubrir nuevas capacidades aún no imaginadas.