Mejoras en la generación de imágenes de ChatGPT por OpenAI

Durante una transmisión en vivo el pasado martes, el CEO de OpenAI, Sam Altman, anunció la primera gran actualización en las capacidades de generación de imágenes de ChatGPT en más de un año. Con la nueva implementación del modelo GPT-4o, ChatGPT ahora puede crear y modificar imágenes y fotos de manera nativa, marcando un avance importante en la tecnología de inteligencia artificial.

Capacidades del modelo GPT-4o

El modelo GPT-4o ha sido la base de la plataforma de chatbot impulsada por inteligencia artificial de OpenAI, pero hasta ahora, solo había sido capaz de generar y editar texto. Altman destacó que la generación nativa de imágenes de GPT-4o ya está disponible para los suscriptores del plan Pro de la compañía, que cuesta 200 dólares al mes. Además, OpenAI ha anunciado que esta función se implementará pronto para los usuarios Plus y gratuitos de ChatGPT, así como para los desarrolladores que utilizan el servicio API de la empresa.

Mejoras en la precisión y detalle de las imágenes

Una de las características más destacadas de GPT-4o es su capacidad para generar imágenes más precisas y detalladas. Según OpenAI, este modelo “piensa” un poco más que el modelo de generación de imágenes que reemplaza, DALL-E 3, lo que resulta en una calidad superior de las imágenes producidas. GPT-4o también puede editar imágenes existentes, incluyendo aquellas que contienen personas, permitiendo transformaciones y la adición de detalles en primer plano y fondo.

Consideraciones sobre los derechos de autor y el entrenamiento de datos

Para potenciar esta nueva función de imagen, OpenAI ha informado que entrenó a GPT-4o utilizando datos disponibles públicamente, así como datos propietarios de asociaciones con empresas como Shutterstock. Sin embargo, muchos proveedores de IA generativa consideran que los datos de entrenamiento son una ventaja competitiva, lo que les lleva a mantener esta información en secreto. Brad Lightcap, COO de OpenAI, afirmó que la empresa respeta los derechos de los artistas y tiene políticas para evitar la generación de imágenes que imiten directamente el trabajo de artistas vivos. Además, OpenAI ofrece un formulario de exclusión que permite a los creadores solicitar la eliminación de sus obras de los conjuntos de datos de entrenamiento.

La actualización de la función de generación de imágenes de ChatGPT llega en un momento en que Google también ha experimentado con la salida nativa de imágenes en su modelo Gemini 2.0 Flash. Sin embargo, esta característica ha generado controversia debido a la falta de controles, lo que ha permitido a los usuarios eliminar marcas de agua y crear imágenes que representan personajes con derechos de autor.