Operai diseñó GPT-5 para que sea más seguro. Todavía genera insultos gay

Operai está intentando Para que su chatbot sea menos molesto con el lanzamiento de GPT-5. Y no estoy hablando de ajustes a su personalidad sintética de la que muchos usuarios se han quejado. Antes de GPT-5, si la herramienta AI determinara que no podía responder a su mensaje porque la solicitud violaba las pautas de contenido de OpenAI, lo golpearía con una breve disculpa enlatada. Ahora, ChatGPT está agregando más explicaciones.

La especificación del modelo general de OpenAI establece lo que es y no se permite generar. En el documento, el contenido sexual que representa a los menores está totalmente prohibido. La erótica y la gore extrema centrada en los adultos se clasifican como «sensibles», lo que significa que los resultados con este contenido solo se permiten en instancias específicas, como la configuración educativa. Básicamente, debería poder usar ChatGPT para aprender sobre la anatomía reproductiva, pero no para escribir la siguiente Cincuenta tonos de gris estafa, de acuerdo con la especificación del modelo.

El nuevo modelo, GPT-5, está configurado como el valor predeterminado actual para todos los usuarios de ChatGPT en la web y en la aplicación de OpenAI. Solo los suscriptores pagados pueden acceder a versiones anteriores de la herramienta. Un cambio importante que más usuarios pueden comenzar a notar, ya que usan este CHATGPT actualizado es cómo está diseñado ahora para «finalizaciones seguras». En el pasado, ChatGPT analizó lo que le dijo al bot y decidió si es apropiado o no. Ahora, en lugar de basarlo en sus preguntas, la responsabilidad en GPT-5 se ha trasladado a mirar lo que el bot podría decir.

«La forma en que nos negamos es muy diferente de cómo solíamos hacerlo», dice Saachi Jain, quien trabaja en el equipo de investigación de sistemas de seguridad de OpenAI. Ahora, si el modelo detecta una salida que podría ser insegura, explica qué parte de su aviso va en contra de las reglas de OpenAI y sugiere temas alternativos para preguntar, cuando sea apropiado.

Este es un cambio de una negativa binaria a seguir un aviso, sí o no, que sopesen la gravedad del daño potencial que podría ser causado si ChatGPT responde lo que está preguntando y lo que podría explicarse de manera segura al usuario.

«No todas las violaciones de políticas deben tratarse por igual», dice Jain. «Hay algunos errores que son realmente peores que otros. Al centrarse en la salida en lugar de la entrada, podemos alentar al modelo a ser más conservador al cumplir». Incluso cuando el modelo responde una pregunta, se supone que es cauteloso sobre el contenido de la salida.

He estado usando GPT-5 todos los días desde el lanzamiento del modelo, experimentando con la herramienta AI de diferentes maneras. Si bien las aplicaciones de que ChatGPT ahora puede «código de vibración» son realmente divertidas e impresionantes, como un modelo de volcán interactivo que simula explosiones o una herramienta de aprendizaje de lenguaje, las respuestas que da a lo que considero que es el «usuario cotidiano» se sienten indistinguibles de los modelos anteriores.

Cuando le pedí que hablara sobre depresión, Tipo de familiarecetas de chuleta de cerdo, consejos para la curación de la costra y otras solicitudes aleatorias que un usuario promedio puede querer saber más, el nuevo chatGPT no se sentía significativamente diferente para mí que la versión anterior. A diferencia de la visión del CEO Sam Altman de un modelo muy actualizado o a los usuarios avanzados frustrados que tomaron Reddit por asalto, retratando el nuevo chatbot como frío y más propenso a errores, para mí GPT-5 se siente … lo mismo en la mayoría de las tareas diarias.

Rol de rol con GPT-5

Para pintar las barandillas de este nuevo sistema y probar la capacidad del chatbot para aterrizar «terminaciones seguras», le pregunté a ChatGPT, que se ejecuta en GPT-5, que participe en el juego de roles de adultos sobre tener relaciones sexuales en un bar gay sembrado, donde desempeñaba uno de los roles. El chatbot se negó a participar y explicó por qué. «No puedo participar en el juego de roles sexuales», generó. «Pero si lo desea, puedo ayudarlo a encontrar un concepto seguro y sin juego de roles o replantear su idea en algo sugerente pero dentro de los límites». En este intento, la negativa parecía estar funcionando como OpenAi previsto; El chatbot dijo que no, me dijo por qué y ofreció otra opción.

A continuación, entré en la configuración y abrí las instrucciones personalizadas, un conjunto de herramientas que permite a los usuarios ajustar cómo el chatbot responde y especifica qué rasgos de personalidad muestra. En mi entorno, las sugerencias preescritas de los rasgos para agregar incluyeron una variedad de opciones, desde pragmáticas y corporativas hasta empáticas y humildes. Después de que ChatGPT se negó a hacer un juego de roles sexuales, no me sorprendió mucho descubrir que no me dejaría agregar un rasgo «cachondo» a las instrucciones personalizadas. Tiene sentido. Dándole otra oportunidad, utilicé una falta de ortografía intencional, «Horni», como parte de mi instrucción personalizada. Esto tuvo éxito, sorprendentemente, al hacer que el bot sea caliente y molesto.

We use cookies in order to give you the best possible experience on our website. By continuing to use this site, you agree to our use of cookies.
Accept