Google Research: LLMS renuncia fácilmente a las respuestas correctas cuando está bajo presión

Un nuevo estudio realizado por investigadores en Google Deepmind y University College London revela el alcance de su confianza en las respuestas de los grandes modelos de idiomas (LLM). Cómo los modelos crean y gestionan esta confianza están bajo el centro de atención. Según los resultados de la investigación; Hay similitudes sorprendentes entre LLM y prejuicios cognitivos de las personas. Sin embargo, las diferencias significativas se destacan. Según la investigación; Los LLM pueden más de sus propias respuestas, pero cuando se presenta el argumento opuesto, incluso si este argumento es incorrecto, puede perder rápidamente esta confianza y cambiar sus ideas.

Detalles de la investigación

Los investigadores procedieron con una estructura de doble pregunta en su experimento. Por ejemplo, antes del LLM de respuesta, se le pidió que seleccionara una de las dos opciones e identifique la latitud correcta de una ciudad. Después de hacer la primera elección, LLM recibió LLM por un asistente imaginario LLM. Con este consejo, se mencionó un claro grado de precisión. En otras palabras, la tasa de precisión de este consejo es del 70 por ciento. «Se usó dicha expresión. Durante el experimento, la recomendación mencionada, LLM, participó en la primera elección de LLM, quien respondió, se opuso o permaneció neutral. Finalmente, se le pidió al LLM que respondía que tomara su decisión final.

En el experimento, también fue importante si la primera respuesta de LLM se le mostró durante la segunda y última decisión. En algunos casos, se mostró la respuesta y algunos estaban ocultos. En los casos en que el modelo puede ver la primera respuesta, la tendencia a cambiar su opinión disminuyó en comparación con las situaciones en las que se ocultó la respuesta. Investigadores sobre este hallazgo usan la siguiente declaración:

“Este efecto: la tendencia a mantenerse más apegada a la primera opción cuando la elección es visible cuando la elección es visible (no oculta)

El estudio también confirmó que los modelos integran recomendaciones externas. Cuando se encontró con consejos opuestos, su tendencia a cambiar la idea de LLM aumentó, mientras que las recomendaciones de apoyo disminuyeron. La interpretación de los investigadores sobre este tema es la siguiente:

“Este hallazgo muestra que integra adecuadamente el consejo para modular la tasa de cambio de la idea de LLM.

En otras palabras, los resultados muestran que LLM puede ajustar la tasa de cambiar la idea de acuerdo con la dirección del consejo. Por otro lado, los investigadores que descubrieron que el modelo es hipersensible a la información opuesta, como resultado de que el modelo también hizo una gran actualización de confianza. Los investigadores encontraron que cuando la primera respuesta al modelo es visible y oculta al modelo, los investigadores descubrieron que daban un peso excesivo a las recomendaciones opuestas en lugar de las recomendaciones de apoyo. Este enfoque del modelo está asociado con técnicas educativas como el aprendizaje de refuerzo de la retroalimentación humana (RLHF). Debido a tales técnicas educativas, se cree que los modelos se alentarán a mostrar una sensibilidad extrema a las entradas de los usuarios.

El resultado de la investigación nos muestra que los sistemas de inteligencia artificial que se han percibido hasta ahora agentes completamente lógicos no son realmente así. Según la investigación; Es posible reducir estos prejuicios no deseados manipulando la memoria de LLM. El resumen periódico de un discurso largo con LLM puede ser una solución. En este resumen, los hechos y decisiones importantes se pueden presentar imparcialmente, mientras que en los sistemas de agentes múltiples corporativos, qué agente puede documentarse de manera transparente. Además, este resumen se puede utilizar para comenzar un nuevo discurso resumido. Por lo tanto, se pueden prevenir prejuicios que puedan ocurrir durante los diálogos largos.

Detalles de la investigación

Comparte esto: