Anthrope desarrolla ‘microscopio’ de IA para revelar la mecánica oculta del pensamiento de LLM
Anthrope ha presentado nuevas herramientas de investigación diseñadas para proporcionar una visión rara de los procesos de razonamiento ocultos de los modelos de lenguaje avanzado, como un «microscopio» para la IA. Las herramientas permiten a los científicos rastrear cálculos internos en modelos grandes como Claude de Anthrope, revelando los bloques de construcción conceptuales, los circuitos de pensamiento y las contradicciones internas que surgen cuando la IA «piensa».
El microscopio, detallado en dos documentos nuevos («trazado de circuito: revelando gráficos computacionales en modelos de lenguaje» y «en la biología de un modelo de lenguaje grande»), representa un paso para comprender el funcionamiento interno de los modelos que a menudo se comparan con las cajas negras. A diferencia del software tradicional, los modelos de idiomas grandes (LLM) no se programan explícitamente sino que se capacitan en conjuntos de datos masivos. Como resultado, sus estrategias de razonamiento están codificadas en miles de millones de parámetros opacos, lo que dificulta que sus creadores expliquen cómo funcionan.
«Nos estamos inspirando en la neurociencia», dijo la compañía en una publicación de blog. «Así como los investigadores del cerebro investigan la estructura física de los circuitos neuronales para comprender la cognición, estamos diseccionando neuronas artificiales para ver cómo los modelos procesan el lenguaje y generan respuestas».
Mirando en «Biología AI»
Utilizando su conjunto de herramientas de interpretabilidad, los investigadores antrópicos han identificado y mapeado «circuitos» patrones de actividad vinculados que corresponden a capacidades específicas como razonamiento, planificación o traducción entre idiomas. Estos circuitos permiten al equipo rastrear cómo se mueve un aviso a través de los sistemas internos de Claude, revelando tanto las fortalezas sorprendentes como los defectos ocultos.
En un estudio, Claude tuvo la tarea de componer la poesía de rima. Contrariamente a las expectativas, los investigadores descubrieron que el modelo planea múltiples palabras por delante para cumplir con las limitaciones y las limitaciones de significado, efectivamente las líneas de ingeniería inversa antes de escribir la primera palabra. Otro experimento encontró que Claude a veces genera un razonamiento falso cuando se empuja con una premisa falsa, ofreciendo explicaciones plausibles para respuestas incorrectas, planteando nuevas preguntas sobre la confiabilidad de sus explicaciones paso a paso.
Los resultados sugieren que los modelos de IA poseen algo similar a un «lenguaje de pensamiento», un espacio conceptual abstracto que trasciende los idiomas individuales. Al traducir entre idiomas, por ejemplo, Claude parece acceder a un núcleo semántico compartido antes de representar la respuesta en el idioma de destino. Los investigadores señalaron que este comportamiento «interlingua» aumenta con el tamaño del modelo.
Prueba de concepto microscópico
El método de Anthrope, el rastreo de circuito denominado, permite a los investigadores alterar las representaciones internas medias, similar a las partes estimulantes del cerebro para observar los cambios de comportamiento. Por ejemplo, cuando los investigadores eliminaron el concepto de «conejo» del estado de planificación poética de Claude, el modelo cambió la rima final de «conejo» al «hábito». Cuando insertaron ideas no relacionadas como «verde», el modelo adaptó su oración, en consecuencia, rompiendo la rima pero manteniendo la coherencia.
En tareas matemáticas, los trabajos internos de Claude también demostraron ser más sofisticados de lo que sugerirían las interacciones superficiales. Si bien el modelo afirma seguir los pasos aritméticos tradicionales, su proceso real implica cálculos paralelos: una estimación de sumas aproximadas y otro dígitos finales calculadores con precisión. Estos hallazgos sugieren que Claude ha desarrollado estrategias de razonamiento híbrido, incluso en dominios simples.
Hacia la transparencia de AI
El proyecto es parte de la estrategia de alineación más amplia de Anthrope, que busca garantizar que los sistemas de IA se comporten de manera segura y previsible. Las herramientas de interpretabilidad son especialmente prometedoras para identificar casos en los que un modelo puede razonar hacia un resultado dañino o engañoso, como responder a una solicitud de jailbreak manipulada o apaciguar las señales de recompensa sesgadas.
Un estudio de caso mostró que Claude a veces puede reconocer una solicitud dañina mucho antes de formular un rechazo completo, pero la presión interna para generar una salida gramaticalmente coherente provoca un breve lapso, solo recuperando la alineación de seguridad después de completar una oración. Otra prueba encontró que el modelo declinó especular por defecto, solo produciendo una respuesta cuando ciertos circuitos de «entidad conocida» anulaban su renuencia, lo que a veces resultaba en alucinaciones.
Aunque los métodos aún son limitados, capturando solo fracciones de la actividad interna de un modelo, Anthrope cree que el rastreo de circuitos ofrece una base científica para escalar la interpretabilidad en futuros sistemas de IA.
«Este es un trabajo de alto riesgo y de alta recompensa», dijo la compañía. «Es minucioso mapear incluso las indicaciones simples, pero a medida que los modelos se vuelven más complejos e impactantes, la capacidad de ver lo que están pensando será esencial para garantizar que estén alineados con los valores humanos y digamos nuestra confianza».
Sobre el autor
John K. Waters es el editor en jefe de varios sitios de converge360.com, con un enfoque en el desarrollo de alta gama, la IA y la tecnología futura. Ha estado escribiendo sobre tecnologías de vanguardia y cultura de Silicon Valley durante más de dos décadas, y ha escrito más de una docena de libros. También co-scrito la película documental Silicon Valley: un renacimiento de 100 añosque se emitió en PBS. Se le puede contactar en [email protected].
