Nuevo modelo de Anthropic que destaca por su rendimiento de codificación agente y razonamiento visual: Claude Opus 4.7

Anthropic ha presentado su nuevo modelo de inteligencia artificial, Claude Opus 4.7. Según Anthropic, la ingeniería de software de Claude Opus 4.7 lo hace mejor a la hora de seguir instrucciones y completar tareas del mundo real.

El nuevo modelo supera a Claude Opus 4.6 en los puntos de referencia de la industria y en muchos casos de uso para codificación agente, razonamiento multidisciplinario, herramientas escaladas y computación agente.

Opus 4.7, que obtuvo una puntuación del 64,3 por ciento en el punto de referencia de programación SWE-Bench Pro, es casi un 10 por ciento más alto que el Opus 4.6. El nuevo modelo también resolvió más tareas en el conjunto de datos Terminal-Bench 2.0, que consistían en desafíos de codificación que involucraban la línea de comando.

Aunque Anthropic generalmente describe Opus 4.7 como su modelo más potente disponible, las capacidades cibernéticas del modelo no son tan avanzadas como Claude Mythos Preview, que Anthropic lanzó a un grupo selecto de empresas a principios de este mes como parte de una nueva iniciativa de ciberseguridad llamada Proyecto Glasswing. La compañía no lo puso ampliamente a disposición por temor a que los piratas informáticos pudieran hacer un mal uso de este LLM.

Opus 4.7, por otro lado, tiene un mecanismo que detecta intentos de utilizar el modelo para ciberataques. Según Anthropic, los ingenieros de la empresa recopilarán datos sobre la eficacia de este mecanismo. Los hallazgos se utilizarán para crear medidas de protección para Mythos. Gracias a estas medidas de protección, la empresa puede garantizar que puede abrir de forma segura sus “modelos de clase Mythos” a los clientes. Además, en el marco del Programa de Verificación Cibernética, Anthropic relajará las medidas de seguridad en las cuentas de los expertos en ciberseguridad y permitirá el uso de una gama más amplia de comandos.

Sin embargo, debemos señalar que Opus 4.7 realiza algunas tareas tan bien como Mythos. Opus 4.7 estuvo dentro del 1 por ciento del puntaje del modelo superior en la prueba GPQA Diamond, que consiste en preguntas científicas de nivel de posgrado. GPT-5.4 de OpenAI, por otro lado, logró superar la puntuación de Mythos en BrowseComp, un punto de referencia diseñado para probar las habilidades de investigación en línea de los LLM.

Claude Opus 4.7 está disponible en todos los productos Claude de Anthropic, mientras que su API está disponible a través de proveedores de nube como Microsoft, Google y Amazon. Según Antrópico; El precio del nuevo modelo es el mismo que el del Claude Opus 4.6.

Anthropic introdujo diferentes innovaciones con Claude Opus 4.7. En el lado de la API, la compañía agregó una nueva opción llamada xhigh, que se coloca entre el nivel más alto y el segundo más alto, al parámetro de «nivel de esfuerzo» que los desarrolladores pueden configurar para modelos de lenguaje grandes; Se afirma que de esta manera se puede establecer con mayor precisión el equilibrio calidad-coste.

Anthropic también ha introducido la función «presupuestos de tareas», que permite predefinir la cantidad máxima de tokens que Claude puede procesar en una tarea.

Además, se agregó el comando de barra diagonal ultrareview a Claude Code, que escanea un archivo de código en busca de errores y problemas potenciales; Los usuarios suscriptores de Max pueden utilizar esta función junto con la nueva automatización del modo automático que acelera las tareas de programación a largo plazo.

Comparte esto: