Presentación de los modelos OpenAI o3 y o4-mini

OpenAI ha llevado su trabajo en el campo de la inteligencia artificial multimodal al siguiente nivel con dos nuevos modelos. Estos modelos, denominados o3 y o4-mini, pueden incluir en sus procesos intelectuales no sólo textos, sino también elementos visuales. La empresa describe o3 como el modelo de razonamiento más avanzado hasta la fecha, mientras que o4-mini ofrece resultados eficaces a pesar de su pequeño tamaño. Estos dos modelos se dieron a conocer pocos días después de la presentación de GPT-4.1.

La principal diferencia de los nuevos modelos es su capacidad para procesar imágenes y establecer conexiones intelectuales con ellas. Los usuarios pueden mostrar a estos modelos dibujos a mano, diagramas o imágenes digitales y hacer que los analicen. Operaciones como girar o ampliar las imágenes se incluyen en el proceso de pensamiento de los modelos. De este modo, el campo de análisis de la inteligencia artificial se extiende más allá del texto y adquiere un mayor alcance.

Los modelos con pleno acceso a las herramientas ChatGPT amplían sus capacidades

Los modelos recién anunciados de OpenAI no se limitan a pensar sólo con visuales. o3 y o4-mini también proporcionan acceso a todas las herramientas auxiliares del ecosistema ChatGPT. Funciones como el navegador web, la ejecución de código, la generación de imágenes y el análisis de archivos pueden utilizarse ahora con estos modelos. La empresa afirma que estas capacidades están actualmente activas para los usuarios de ChatGPT Plus, Pro y Team.

En cualquier caso, este desarrollo no sólo aporta nuevas capacidades, sino que también marca un cambio en la actual gama de modelos. Los modelos o1, o3-mini y o3-mini-high serán retirados progresivamente. Esta decisión puede tener por objeto reorientar los recursos hacia sistemas más avanzados. Los usuarios observarán los efectos de esta transformación en el uso diario con el paso del tiempo.

Uno de los principales puntos que OpenAI pretende con estos modelos es desarrollar la capacidad de la inteligencia artificial multimodal capaz de trabajar con datos visuales. Estos modelos no sólo pueden responder a órdenes, sino también hacer inferencias a partir de la imagen. Por ejemplo, un diagrama de diseño, una tabla matemática o un dibujo arquitectónico pueden interpretarse ahora con mayor profundidad. Así, el poder de análisis y resolución de problemas de la inteligencia artificial se hace más aplicable.

Además, los modelos o3 y o4-mini son importantes no sólo por sus capacidades técnicas, sino también por su eficiencia. OpenAI afirma que el o4-mini funciona con bajos requisitos de hardware y, sin embargo, ofrece un rendimiento por encima de las expectativas. Esto hace que el modelo sea más atractivo, especialmente para los usuarios sensibles a los costes. El equilibrio entre rendimiento y coste desempeña un papel fundamental en el uso generalizado de la inteligencia artificial.

No obstante, la forma en que la capacidad de razonar con elementos visuales se traducirá en la vida cotidiana aún está en proceso de prueba. A medida que aumente la interacción de los usuarios con el modelo, quedará más claro en qué ámbitos serán más útiles estas funciones. Desde la educación a la ingeniería, muchos sectores en los que el análisis visual desempeña un papel fundamental pueden verse afectados por estos avances. Los comentarios de los usuarios serán una de las fuentes clave que marcarán la dirección de desarrollo de los modelos.

Además, las capacidades de ChatGPT se vuelven más funcionales gracias al acceso integrado a herramientas de los modelos. Buscar información en la web, analizar archivos PDF o generar directamente imágenes es ahora más fluido. El objetivo es ofrecer una experiencia más fluida y versátil a los usuarios. Esto permite a la inteligencia artificial convertirse en un colaborador activo, no sólo en un mero respondedor.

We use cookies in order to give you the best possible experience on our website. By continuing to use this site, you agree to our use of cookies.
Accept