La publicación del blog de OpenAI afirma que GPT-5 supera sus modelos anteriores en varios puntos de referencia de codificación, incluidos SWE-Bench Verified (puntaje 74.9 por ciento), Swe-Lancer (GPT-5-pensamiento puntual con puntaje 55 por ciento) y Polyglot de auricular (calificados 88 por ciento), cuya capacidad del modelo para fijar los errores de los errores, las tareas de codificación de estilo freelance completa y el trabajo de múltiples programas.
Durante la sesión informativa de la prensa el miércoles, el líder de la capacitación de Operai, Yann Dubois, llevó a GPT-5 a «crear una aplicación web hermosa y altamente interactiva para mi pareja, un hablante de inglés, para aprender francés». Le encargó que la IA incluyera características como el progreso diario, una variedad de actividades como tarjetas y cuestionarios, y señaló que quería que la aplicación se redujera en un «tema muy atractivo». Después de un minuto más o menos, apareció la aplicación generada por IA. Si bien fue solo una demostración de rieles, el resultado fue un sitio elegante que entregó exactamente lo que DuBois pidió.
«Es un gran colaborador de codificación, y también se destaca en tareas de agente», dice Michelle Pokrass, una ventaja posterior al entrenamiento. «Ejecuta cadenas largas y llamadas de herramientas de manera efectiva [which means it better understands when and how to use functions like web browsers or external APIs]sigue instrucciones detalladas y proporciona explicaciones iniciales de sus acciones «.
Operai también dice en su publicación de blog que GPT-5 es «nuestro mejor modelo hasta ahora para preguntas relacionadas con la salud». En tres puntos de referencia de LLM relacionados con la salud de OpenAI (Healthbench, HealthBench duro y consenso de HealthBench, la tarjeta del sistema (un documento que describe las capacidades técnicas del producto y otros resultados de la investigación) establece que el pensamiento de GPT-5 supera a los modelos anteriores «por un margen sustancial». La versión pensante de GPT-5 obtuvo un 25.5 por ciento en HealthBench duro, por encima del puntaje del 31.6 por ciento de O3. Estos puntajes son validados por dos o más médicos, según la tarjeta del sistema.
El modelo también supuestamente alucina menos, según Pokrass, un problema común para la IA, donde proporciona información falsa. El protagonista de la investigación de seguridad de Openai, Alex Beutel, agrega que han «disminuido significativamente las tasas de engaño en GPT-5».
«Hemos tomado medidas para reducir la propensión de GPT-5-pensamiento a engañar, engañar o piratear problemas, aunque nuestras mitigaciones no son perfectas y se necesitan más investigación», dice la tarjeta del sistema. «En particular, hemos entrenado al modelo para fallar con gracia cuando se plantea con tareas que no puede resolver».
La tarjeta del sistema de la compañía dice que después de probar modelos GPT-5 sin acceso a la navegación web, los investigadores encontraron su tasa de alucinación (que definieron como «porcentaje de reclamos objetivos que contienen errores menores o mayores») 26 por ciento menos comunes que el modelo GPT-4O. El pensamiento GPT-5 tiene una tasa de alucinación reducida del 65 por ciento en comparación con O3.
Para las indicaciones que podrían ser de doble uso (potencialmente dañino o benigno), Beutel dice que GPT-5 usa «terminaciones seguras», lo que hace que el modelo «dé una respuesta lo más útil posible, pero dentro de las limitaciones de permanecer seguros». Operai hizo más de 5,000 horas de equipo rojo, según Beutel, y las pruebas con organizaciones externas para asegurarse de que el sistema fuera robusto.
Operai dice que ahora cuenta con casi 700 millones de usuarios activos semanales de CHATGPT, 5 millones de usuarios comerciales que pagan y 4 millones de desarrolladores que utilizan la API.
«Las vibraciones de este modelo son realmente buenas, y creo que la gente realmente sentirá eso», dice el jefe de Chatgpt Nick Turley. «Especialmente personas promedio que no han pasado su tiempo pensando en modelos».
