¿Qué ofrecen los nuevos modelos o3 y o3-mini de OpenAI?

Abierto AI Serie de anuncios de 12 días. Esto culminó con la introducción de la serie de modelos o3. o3, que actualmente no está disponible para uso general, se ofrecerá inicialmente a investigadores que se centren en pruebas de seguridad. Junto con el o3, también se presentó el modelo o3 mini. Según Sam Altman; El o3 mini se lanzará a finales de enero, y el o3 poco después.

Detalles del modelo o3

o3 fue entrenado mediante aprendizaje por refuerzo. De esta forma, el modelo piensa antes de responder con un método llamado cadena de pensamiento especial. El modelo puede razonar a través de una tarea y planificar el futuro. Sin embargo, cabe señalar que el modelo puede realizar una serie de acciones que le ayudarán a encontrar una solución durante un largo periodo de tiempo.

Cuando le das una indicación a o3, el modelo hace una pausa y evalúa una serie de indicaciones relacionadas antes de responder. En este proceso, el modelo explica su razonamiento y ofrece a los usuarios la respuesta más precisa, en su opinión.

Puntos de referencia destacados

Podemos decir que o3 funciona mejor que o1. El modelo incluso triplica el rendimiento de o1 en la configuración de cálculo baja. En el examen de matemáticas por invitación estadounidense, o3 logró una puntuación de precisión del 96,7 por ciento, mientras que o1 logró una puntuación del 83,3 por ciento.

El modelo, que alcanzó el 87,7 por ciento en GPQA Diamond, que consta de preguntas de física y química, rompió un nuevo récord en el criterio Frontier Math de EpochAI y resolvió el 25,2 por ciento de los problemas. En este punto cabe destacar que ningún otro modelo puede superar el 2 por ciento.

El modelo superó a o1 en 22,8 puntos porcentuales en SWE-Bench Verified, un punto de referencia centrado en tareas de programación. o3 alcanza 2727 en la calificación Codeforces, otro punto de referencia que evalúa las habilidades de codificación.

Mark Chen, vicepresidente senior de investigación de OpenAISegún lo manifestado; Por lo general, o3 solo omite una pregunta. Según la información compartida; El o3 tuvo un desempeño tan bueno en las pruebas comparativas habituales a las que OpenAI somete sus modelos, que la compañía tuvo que idear pruebas más desafiantes para compararlo. Producido por PREMIO ARC ARCO-AGI es uno de ellos. Este punto de referencia pone a prueba la capacidad de un algoritmo de IA para intuir y aprender en el acto.

Se afirma que un sistema de inteligencia artificial que pueda superar con éxito ARC-AGI representará un hito importante hacia la inteligencia artificial general (AGI). Cabe señalar que ningún modelo de IA ha podido superar a ARC-AGI desde su debut en 2019. La prueba consta de preguntas de entrada y salida que la mayoría de las personas pueden resolver de forma intuitiva. o3 en una configuración de procesador más baja que la prueba 75,7 puntos porcentualescon potencia de procesamiento adicional 87,5 por ciento alcanzado cierto nivel.

Greg Kamradt, presidente de la Fundación Premio ARC, Afirma que el desempeño humano se puede comparar en el umbral del 85 por ciento. Por eso, superarlo es un hito importante, afirma Kamradt. Por otro lado François Chollet, cocreador de ARC-AGI Según explicó; o3 falló en tareas muy fáciles en ARC-AGI. En este sentido, el modelo presenta diferencias fundamentales con la inteligencia humana.

03-mini

O3-mini de OpenAI utiliza la API Adaptive Thinking Time para ofrecer tres modos de razonamiento diferentes: Bajo, Medio y Alto. De modo que los usuarios pueden ajustar cuánto tiempo piensa el modelo en un problema. o3-mini puede lograr resultados comparables al modelo de razonamiento o1 existente de OpenAI de manera rentable.

Es posible solicitar acceso anticipado a los modelos a través del sitio web de OpenAI. El proceso de solicitud finalizará el 10 de enero de 2025. El formulario de solicitud solicita a los desarrolladores mucha información, incluido su enfoque de investigación, experiencias pasadas, artículos publicados anteriormente y enlaces a repositorios de código en Github. Los desarrolladores tienen que elegir qué modelo quieren probar, o3 u o3-mini, y para qué planean usarlo.

Detalles del modelo o3

Puntos de referencia destacados

03-mini

Comparte esto: