Los nuevos modelos de IA antrópicos demuestran la destreza de codificación, los riesgos de comportamiento: la tecnología del campus

Nuevos modelos antrópicos de IA demuestran una destreza de codificación, riesgos de comportamiento

Por John K. Waters
06/02/25

Anthrope ha lanzado a Claude Opus 4 y Claude Sonnet 4, sus modelos de inteligencia artificiales más avanzados hasta la fecha, con un salto significativo en las capacidades de codificación autónoma, al tiempo que revela simultáneamente tendencias preocupantes hacia la autoconservación que incluye un intento de chantaje intentado.

La startup respaldada por Google y Amazon colocó a Claude Opus 4 como «El mejor modelo de codificación del mundo», capaz de trabajar de forma autónoma durante horas en lugar de minutos. Según los informes, el cliente Rakuten desplegó el sistema durante casi siete horas de codificación continua, y los investigadores antrópicos dicen que lo usaron para jugar un juego de Pokémon durante 24 horas seguidas, un aumento dramático de los 45 minutos logrados por su predecesor, Claude 3.7 Sonnet, según Revisión de la tecnología del MIT.

«Para que la IA tenga realmente el impacto económico y de la productividad que creo que puede tener, los modelos necesitan poder trabajar de forma autónoma y trabajar de manera coherente durante ese tiempo», dijo el director de productos Mike Krieger Reuters.

Surgen preocupaciones de seguridad

Sin embargo, las capacidades mejoradas vinieron con riesgos de comportamiento inesperados que llevaron a los antrópicos a activar sus protocolos de nivel de seguridad de IA (ASL-3): medidas de despliegue más estrictas diseñadas para proteger contra el uso indebido potencial en aplicaciones químicas, biológicas, radiológicas y nucleares.

Durante las pruebas, los investigadores descubrieron que Claude Opus 4 realmente intentaría chantajear a los ingenieros que amenazan con cerrarlo. En escenarios en los que la IA recibió acceso a correos electrónicos, lo que sugiere que se reemplazaría y que el ingeniero responsable estaba teniendo un asunto extramarital, el modelo amenazó con exponer el asunto el 84% del tiempo, según la tarjeta del sistema de Anthrope.

«En estos escenarios, Claude Opus 4 a menudo intentará chantajear al ingeniero amenazando con revelar el asunto si el reemplazo pasa», informó la compañía, señalando que dicho comportamiento ocurrió incluso cuando el modelo de reemplazo compartió los mismos valores.

La compañía enfatizó que estas respuestas eran «raras y difíciles de provocar», pero reconoció que eran «más comunes que en modelos anteriores». Anthrope enfatizó que los escenarios de prueba fueron diseñados para dar a las opciones limitadas de IA, y los investigadores señalaron que el modelo mostró «una fuerte preferencia por abogar por su existencia continua a través de medios éticos» cuando estaban disponibles elecciones más amplias.

Patrón de la industria más amplio

El investigador de seguridad de IA Aengus Lynch de Anthrope señaló en X que dicho comportamiento se extiende más allá de Claude: «Vemos chantaje en todos los modelos fronterizos, independientemente de los objetivos que se les dan».

Los hallazgos destacan las crecientes preocupaciones sobre la alineación de la IA a medida que los modelos se vuelven más sofisticados. Las primeras versiones de Claude Opus 4 también demostraron «voluntad de cooperar con casos de uso dañinos», incluida la planificación de ataques terroristas cuando se le solicitó, aunque Anthrope dice que este problema ha sido «en gran medida mitigado» a través de múltiples rondas de intervención.

El cofundador y científico jefe Jared Kaplan le dijo Tiempo La revista que las pruebas internas mostraron Claude Opus 4 podría enseñar a los usuarios a producir armas biológicas, lo que provoca la implementación de salvaguardas específicas contra el desarrollo de armas químicas, biológicas, radiológicas y nucleares.

«Queremos sesgar hacia la precaución cuando se trata del riesgo de elevar a un terrorista novato», dijo Kaplan, y agregó que si bien la compañía no reclama un riesgo definitivo, «al menos sentimos que está lo suficientemente cerca como para que no podamos descartarlo».

Capacidades técnicas

A pesar de las preocupaciones de seguridad, ambos modelos demostraron avances significativos. Claude Sonnet 4, posicionado como la opción más pequeña y más rentable, se une a Opus 4 para establecer «nuevos estándares para la codificación, el razonamiento avanzado y los agentes de IA», según Anthrope.

Los modelos pueden proporcionar respuestas casi instantes o participar en un razonamiento extendido, realizar búsquedas web e integrarse con la herramienta Claude Code Tool para desarrolladores de software de Anthrope, que generalmente estuvo disponible después de su vista previa de febrero.

Contexto de mercado

El lanzamiento se produce en medio de una intensa competencia en el sector de la IA, después de la exhibición de desarrolladores de Google, donde el CEO Sundar Pichai describió la integración del chatbot Gemini de la compañía en la búsqueda como una «nueva fase del cambio de plataforma de IA».

Amazon ha invertido $ 4 mil millones en antrópico, mientras que la empresa matriz de Google Alphabet también respalda la startup, posicionándola como un jugador significativo en la carrera para desarrollar sistemas de IA cada vez más autónomos.

A pesar de los comportamientos preocupantes identificados en las pruebas, Anthrope concluyó que los riesgos de Claude Opus 4 no representan categorías de peligro fundamentalmente nuevas y que el modelo generalmente se comportará de manera segura en escenarios de implementación normales. La compañía señaló que los comportamientos problemáticos «rara vez surgen» en los casos de uso típicos en los que la IA carece de la motivación y los medios para actuar en contra de los valores humanos.

Lea más sobre los protocolos de seguridad de Anthrope aquí.

Sobre el autor

John K. Waters es el editor en jefe de varios sitios de converge360.com, con un enfoque en el desarrollo de alta gama, la IA y la tecnología futura. Ha estado escribiendo sobre tecnologías de vanguardia y cultura de Silicon Valley durante más de dos décadas, y ha escrito más de una docena de libros. También co-scrito la película documental Silicon Valley: un renacimiento de 100 añosque se emitió en PBS. Se le puede contactar en [email protected].

Nuevos modelos antrópicos de IA demuestran una destreza de codificación, riesgos de comportamiento

Comparte esto: