Opadai Cuando presentó O3 en diciembre, la compañía afirmó que el modelo podría responder a más de una cuarta parte de las preguntas en Frontiermath, un conjunto desafiante de problemas de matemáticas. Con este puntaje, el modelo logró dejar atrás a sus competidores. Porque el siguiente mejor modelo pudo responder solo el 2 por ciento de los problemas de Frontiermath correctamente.
Gerente de Investigación de Operai Mark Chen En una transmisión en vivo, todas las propuestas en el mercado funcionan menos del 2 por ciento en Frontiermath, mientras que la configuración agresiva de cálculo del tiempo de prueba O3 con un 25 por ciento interno dijo que vieron. Si bien se posicionó como un límite superior métrico, dejó la impresión de que OpenAi se obtuvo con una versión O3 con más procesamiento de información que el modelo que lanzó la semana pasada.
https://www.youtube.com/watch?v=skbg1sqdy
Epoch AI, el Instituto de Investigación detrás de Frontiermath, publicó los resultados de las pruebas de comparación independientes de O3 la semana pasada. Epoch descubrió que O3 recibió una puntuación de alrededor del 10 por ciento. Esto está muy por debajo del puntaje más alto que afirma OpenAI.
En este caso, puede pensar que la información compartida por OpenAI no es correcta. Sin embargo, los resultados de comparación de OpenAI en diciembre muestran una puntuación de límite inferior que coincide con los puntos observados por Epoch. Al afirmar que la configuración de la prueba es diferente de la de OpenAI, Epoch dijo que usan una versión actualizada de Frontiermath en las evaluaciones.
ÉPOCA, En una declaración que compartió Incluía las siguientes afirmaciones:
La diferencia entre los resultados de OpenAI y OpenAI puede deberse al hecho de que OpenAI se evalúa con un andamio interno más fuerte, el uso de más tiempo de prueba, es decir, el cálculo o la operación de estos resultados en un subconjunto de frontyermath diferente.
Los modelos O3-Mini-High y O4-Mini de Openai funcionan mejor que O3 en Frontiermath. Operai planea lanzar O3-Pro, una variante O3 más fuerte en las próximas semanas. En este sentido, la versión pública de O3 está detrás de las promesas de prueba de OpenAI está lejos de ser una importancia crítica para los usuarios.