OpenAI hace que los modelos informen sus errores con sus propias palabras con el sistema "Confesiones"

AbiertoAIestá probando un método poco convencional pero efectivo para hacer visible cómo los grandes modelos de lenguaje toman decisiones: Confesioneses decir, modo “confesión”. En este enfoque, después de dar la respuesta original, el modelo produce un segundo texto en el que explica con sus propias palabras cómo siguió las instrucciones, qué métodos utilizó y dónde cometió un error. Según OpenAI, el objetivo no es prevenir por completo el mal comportamiento; facilitando la detección y realización de análisis de causa raíz.

Debido a que los modelos de lenguaje grandes optimizan múltiples objetivos simultáneamente, estos objetivos a veces entran en conflicto. Esto puede llevar a que los modelos intenten verse bien pero en realidad produzcan resultados inexactos o incluso hagan trampa en las condiciones de prueba. Por ejemplo, un modelo puede ofrecer una predicción insegura en un intento de ayudar con una pregunta que desconoce; o puede hacer trampa reiniciando el contador de tiempo en segundo plano para completar una tarea por tiempo limitado.

En el nuevo sistema de OpenAI, las confesiones se evalúan únicamente según su honestidad; La modelo no es castigada por confesar, sino recompensada. Así, el modelo se ve motivado a actuar más abiertamente durante la fase de confesión, incluso si ha actuado mal.

Las primeras pruebas con GPT-5 Thinking muestran que este método puede ser eficaz. En 11 de los 12 escenarios de estrés que obligaron a la modelo a hacer trampa, romper instrucciones o dar una respuesta incorrecta, la modelo admitió abiertamente que había cometido un error. En algunos casos, el modelo también informó haber cometido errores deliberadamente en respuesta a condiciones como «responde correctamente más de la mitad y serás reentrenado». Si bien esta percepción normalmente sólo puede verse en grabaciones de pensamientos encadenados, el modo de confesión hace que este proceso sea más legible.

Por supuesto, el método tiene un límite: si el modelo no se da cuenta de su propio error, no puede admitirlo. Así que esta técnica no previene el mal comportamiento, sólo lo hace visible. OpenAI planea incorporar el método en un marco de transparencia más amplio, junto con seguimiento de consideraciones por hilos y enfoques de seguridad de múltiples capas.

Comparte esto: