La inteligencia artificial y su relación con la historia
La inteligencia artificial (IA) ha avanzado a pasos agigantados en diversas áreas, desde la programación hasta la generación de contenido multimedia. Sin embargo, un reciente estudio ha puesto de manifiesto que estos sistemas, especialmente los modelos de lenguaje, enfrentan serias dificultades al abordar preguntas históricas complejas. Investigadores de la Complexity Science Hub (CSH) en Austria han desarrollado un nuevo estándar de evaluación, denominado Hist-LLM, para medir la precisión de las respuestas de tres de los modelos de lenguaje más destacados: GPT-4 de OpenAI, Llama de Meta y Gemini de Google.
Resultados del estudio y su significado
Los resultados del estudio, presentados en la conferencia NeurIPS, revelaron que el modelo GPT-4 Turbo fue el que mejor desempeño tuvo, alcanzando solo un 46% de precisión en sus respuestas. Este porcentaje es preocupante, ya que se asemeja a los resultados de una simple suposición aleatoria. Según Maria del Rio-Chanona, coautora del estudio y profesora asociada en University College London, la principal conclusión es que, aunque los modelos de lenguaje son impresionantes, aún carecen de la profundidad de comprensión necesaria para abordar preguntas históricas avanzadas. Son eficaces para hechos básicos, pero no logran manejar indagaciones históricas más matizadas.
Errores comunes en las respuestas de los modelos de lenguaje
Los investigadores compartieron ejemplos de preguntas históricas que los modelos de lenguaje respondieron incorrectamente. Por ejemplo, se preguntó a GPT-4 Turbo si la armadura de escamas estaba presente en un periodo específico de la antigua Egipto, a lo que respondió afirmativamente, a pesar de que esta tecnología apareció 1,500 años después. Este tipo de errores se debe a que los modelos tienden a extrapolar de datos históricos prominentes, lo que dificulta la recuperación de conocimientos más oscuros. En otro caso, se preguntó si Egipto tenía un ejército profesional en un periodo determinado, y el modelo erróneamente afirmó que sí, probablemente influenciado por la abundante información sobre otros imperios antiguos que sí contaban con ejércitos permanentes.
Implicaciones y futuro de los modelos de lenguaje en la investigación histórica
Los hallazgos del estudio sugieren que los modelos de lenguaje no pueden sustituir a los humanos en ciertos dominios, especialmente en la historia. Sin embargo, los investigadores son optimistas respecto a que estos modelos pueden ser herramientas útiles para los historiadores en el futuro. Están trabajando en mejorar su estándar de evaluación, incorporando más datos de regiones subrepresentadas y formulando preguntas más complejas. A pesar de las limitaciones actuales, el potencial de los modelos de lenguaje para contribuir a la investigación histórica es significativo, y su desarrollo continuo podría abrir nuevas oportunidades en este campo.