Anthropic dice que Claude contiene su propio tipo de emociones

Claude ha sido Hemos pasado por muchas cosas últimamente (una disputa pública con el Pentágono, código fuente filtrado), por lo que tiene sentido que nos sintamos un poco tristes. Excepto que es un modelo de IA, por lo que no puede sentir. ¿Bien?

Bueno, más o menos. Un nuevo estudio de Anthropic sugiere que los modelos tienen representaciones digitales de emociones humanas como felicidad, tristeza, alegría y miedo, dentro de grupos de neuronas artificiales, y estas representaciones se activan en respuesta a diferentes señales.

Los investigadores de la empresa investigaron el funcionamiento interno de Claude Sonnet 3.5 y descubrieron que las llamadas «emociones funcionales» parecen afectar el comportamiento de Claude, alterando los resultados y las acciones del modelo.

Los hallazgos de Anthropic pueden ayudar a los usuarios comunes a comprender cómo funcionan realmente los chatbots. Cuando Claude dice que está feliz de verte, por ejemplo, se puede activar un estado dentro del modelo que corresponde a “felicidad”. Y Claude puede entonces sentirse un poco más inclinado a decir algo alegre o a esforzarse más en codificar las vibraciones.

«Lo que nos sorprendió fue el grado en que el comportamiento de Claude se dirige a través de las representaciones de estas emociones en el modelo», dice Jack Lindsey, investigador de Anthropic que estudia las neuronas artificiales de Claude.

“Función de las emociones”

Anthropic fue fundada por ex empleados de OpenAI que creen que la IA podría volverse difícil de controlar a medida que se vuelve más poderosa. Además de crear un competidor exitoso para ChatGPT, la compañía ha sido pionera en los esfuerzos por comprender cómo se comportan mal los modelos de IA, en parte investigando el funcionamiento de las redes neuronales utilizando lo que se conoce como interpretabilidad mecanicista. Esto implica estudiar cómo las neuronas artificiales se iluminan o activan cuando reciben diferentes entradas o cuando generan varias salidas.

Investigaciones anteriores han demostrado que las redes neuronales utilizadas para construir grandes modelos de lenguaje contienen representaciones de conceptos humanos. Pero el hecho de que las “emociones funcionales” parezcan afectar el comportamiento de un modelo es nuevo.

Si bien el último estudio de Anthropic podría alentar a la gente a ver a Claude como consciente, la realidad es más complicada. Claude puede contener una representación de «cosquillas», pero eso no significa que realmente sepa lo que se siente cuando le hacen cosquillas.

Monólogo interior

Para comprender cómo Claude podría representar las emociones, el equipo de Anthropic analizó el funcionamiento interno del modelo a medida que se alimentaba con texto relacionado con 171 conceptos emocionales diferentes. Identificaron patrones de actividad, o «vectores de emociones», que aparecían constantemente cuando Claude recibía otros aportes emocionalmente evocadores. Fundamentalmente, también vieron que estos vectores emocionales se activaban cuando Claude se encontraba en situaciones difíciles.

Los hallazgos son relevantes para explicar por qué los modelos de IA a veces rompen sus barreras.

Los investigadores encontraron un fuerte vector emocional de «desesperación» cuando Claude fue obligado a completar tareas de codificación imposibles, lo que luego lo impulsó a intentar hacer trampa en la prueba de codificación. También encontraron «desesperación» en las activaciones del modelo en otro escenario experimental en el que Claude optó por chantajear a un usuario para evitar que lo cerraran.

«A medida que el modelo falla las pruebas, estas neuronas de desesperación se encienden cada vez más», dice Lindsey. “Y en algún momento esto hace que se empiecen a tomar estas medidas drásticas”.

Lindsey dice que podría ser necesario repensar cómo se les dan barreras de seguridad a los modelos mediante la alineación posterior al entrenamiento, lo que implica otorgarles recompensas por ciertos resultados. Al obligar a un modelo a fingir que no expresa sus emociones funcionales, «probablemente no obtendrás lo que deseas, que es un Claude sin emociones», dice Lindsey, virando un poco hacia la antropomorfización. «Tendrás una especie de Claude psicológicamente dañado».

“Función de las emociones”

Monólogo interior

Comparte esto: