ChatGPT comenzó a generar imágenes

OpenAI ha logrado una transformación significativa en la experiencia del usuario al integrar capacidades de producción visual directamente en la plataforma ChatGPT. Esta función, que antes sólo era accesible a través de la plataforma Sora, ahora puede utilizarse en los niveles de suscripción Plus, Pro, Team y Free de ChatGPT. Así, los usuarios pueden crear visuales directamente en la pantalla de chat sin necesidad de una aplicación o sitio adicional. Esta integración llama la atención como una extensión del enfoque de inteligencia artificial multimodal de ChatGPT.

La nueva función se llama «Imágenes en ChatGPT» y se basa en el modelo GPT-4o desarrollado por OpenAI. El hecho de que el modelo en cuestión se describa como «omnimodal» indica que es capaz de procesar no sólo texto, sino también distintos tipos de datos como imágenes, audio y vídeo. En este contexto, con un solo comando de texto pueden crearse visuales significativos, coherentes y estéticamente fuertes. La premisa básica del modelo está pensada para superar las limitaciones de los modelos de generaciones anteriores.

El proceso de producción visual secuencial del modelo mejora la calidad

Uno de los aspectos técnicamente más destacables del sistema es que funciona con un método de generación secuencial denominado «autorregresivo». Este método permite generar imágenes paso a paso de izquierda a derecha y de arriba abajo, igual que se crea un texto. Mientras que en los enfoques basados en la difusión la imagen se crea de una sola vez, este nuevo método hace que los textos sean más legibles y los objetos más coherentes. De este modo, se garantiza que los vínculos entre el texto y las formas de la imagen no se confundan.

En este contexto, hay mejoras significativas sobre todo en la característica llamada «enlace», que se refiere a la correspondencia correcta de los atributos de los objetos de la imagen. Mientras que la coincidencia de colores y formas en los sistemas antiguos producía a menudo resultados incorrectos, este nuevo modelo de inteligencia artificial puede identificar correctamente entre 15 y 20 objetos al mismo tiempo. Cuando los usuarios solicitan una estrella azul y un triángulo rojo, el sistema puede crear estos objetos sin mezclarlos. Esto se considera un paso importante para aumentar la precisión gráfica.

Además, el sistema también obtiene buenos resultados en la generación de imágenes con contenido textual. Los errores tipográficos, que suelen encontrarse en los generadores de imágenes de inteligencia artificial, se reducen significativamente en este sistema. Especialmente en los contenidos orientados a texto, como encabezados, etiquetas y paneles informativos, el texto se renderiza correctamente. Aunque hay distorsiones ocasionales en textos muy pequeños, la calidad del texto es en general uniforme.

No obstante, el proceso de producción visual de este nuevo modelo lleva un poco más de tiempo en comparación con los sistemas anteriores. Los ingenieros de OpenAI afirman que esta diferencia de tiempo es razonable a cambio del aumento de calidad. El hecho de que los usuarios puedan acceder a imágenes de mucha mejor calidad esperando unos segundos más se considera una mejora significativa en términos de uso. El sistema sigue desarrollándose para optimizar el tiempo de producción de imágenes.

Además de todo esto, OpenAI ha tomado medidas de seguridad exhaustivas para evitar el uso indebido del sistema. El sistema bloquea directamente las deepfakes sexualizadas, las imágenes con temática de abuso infantil y la eliminación de marcas de agua. Además, todas las imágenes generadas contienen metadatos C2PA que muestran que la imagen ha sido producida por OpenAI. De este modo, se mantiene la transparencia del sistema y se puede rastrear la fuente del contenido cuando sea necesario.

A pesar de ello, no existe una marca de agua visual en las imágenes creadas. En su lugar, entran en juego estructuras que proporcionan trazabilidad a nivel del sistema. Si bien esto garantiza el libre uso de las imágenes en el entorno digital, también incluye los mecanismos de control necesarios para supervisar los usos malintencionados. La propiedad de los contenidos creados por los usuarios sigue siendo de éstos.

Por otro lado, esta novedad no se limita a la producción de contenidos experimentales o artísticos. También se pueden producir gráficos para diagramas científicos, materiales educativos, paneles informativos y presentaciones comerciales. Por ejemplo, ahora es posible visualizar el experimento del prisma de Newton correctamente etiquetado con un solo comando de texto. Esto muestra el punto alcanzado por la capacidad de producción del sistema basada en el conocimiento del mundo.

En consecuencia, esta nueva capacidad de producción visual integrada en ChatGPT supone un notable avance en la producción de contenidos basada en IA. La capacidad de satisfacer las peticiones tanto textuales como visuales de los usuarios en una única plataforma proporciona una experiencia holística en los procesos de producción de contenidos. Esta función, que se ha trasladado desde Sora y se ha colocado en el centro de ChatGPT, es una señal clara de que el uso de la inteligencia artificial multimodal puede convertirse en una práctica habitual en el futuro. En esta nueva era en la que la producción visual puede hacerse con unas pocas palabras, la producción de contenidos se ha vuelto más accesible que nunca.

El proceso de producción visual secuencial del modelo mejora la calidad

Comparte esto: