Openai, con una nueva investigación, anunció que descubrió características ocultas correspondientes a personalidades alineadas incorrectamente en modelos de inteligencia artificial. Los investigadores de Operai, que examinaron la representación interna del modelo de inteligencia artificial, pudieron detectar los patrones que surgieron en los casos en que el modelo era incorrectamente.
De hecho, los investigadores encontraron tal característica correspondiente a comportamientos tóxicos en las respuestas de un modelo de inteligencia artificial. En otras palabras, el modelo de inteligencia artificial dará respuestas incorrectas debido a la característica. Esto incluye a los usuarios para mentir o hacer sugerencias irresponsables. Además, los investigadores pueden descubrir que pueden aumentar y reducir la toxicidad al ajustar esta característica.
Algunas de las características de OpenAI están asociadas con el sarcasmo en las respuestas del modelo de inteligencia artificial, mientras que otras características están relacionadas con respuestas más tóxicas que el modelo de inteligencia artificial actúa como un hombre malvado caricaturizado. Los investigadores de OpenAI dicen que estas características pueden cambiar en gran medida en el proceso de sintonización fina. Los investigadores dicen que cuando surge una incompatibilidad urgente, el modelo solo puede dirigir el comportamiento excelente al buen comportamiento haciendo una ajuste fina en unos pocos cientos de muestra de código seguro.
En este estudio, tanto el científico de investigación de inteligencia artificial de Oxford Owain EvansLa investigación y los estudios previos de Anthrope sobre interpretabilidad y armonía juegan un papel activo. La investigación de Owain Evans muestra que los modelos de OpenAI pueden estar finos con códigos inseguros. Después de este ajuste fino, los modelos pueden exhibir comportamientos maliciosos en varios campos, como tratar de persuadir a los usuarios para que compartan sus contraseñas. A este comportamiento Marcelano de emergencia se llama. La nueva investigación de OpenAI trae una solución al problema de incompatibilidad urgente.
En 2024, Anthrope publicó una investigación que intenta mapear el funcionamiento interno de los modelos de inteligencia artificial. La investigación también estaba tratando de identificar y etiquetar varias características responsables de diferentes conceptos. Los investigadores de Operai también examinaron la incompatibilidad y descubrieron características que juegan un papel importante en el control de los comportamientos en los modelos de inteligencia artificial. Según Mossing; Estos patrones recuerdan a la actividad cerebral interna en el cerebro humano, donde ciertas neuronas están asociadas con el estado de ánimo o los comportamientos. Investigador de evaluación líder de OpenAI Tejal Patwardhan mientras Dan Mossing y su equipo, Afirma que ha encontrado una activación nerviosa interior que muestra estas personalidades y puede ser guiado para hacer que el modelo sea más armonioso.
Con esta última investigación, podemos decir que los modelos de inteligencia artificial entienden mejor los factores que pueden causar comportamientos inseguros. Por lo tanto, la empresa puede desarrollar modelos de inteligencia artificial más seguros. Mossing ‘del investigador intérprete de OpenAiSegún sus transferencias, OpenAI puede usar estos patrones para detectar mejor las incompatibilidades en los modelos de inteligencia artificial de producción.