El nuevo modelo de IA de Anthropic apunta a la codificación y el trabajo empresarial
Anthropic lanzó Claude Opus 4.6, presentando una ventana de contexto de un millón de tokens y funciones de coordinación automatizada de agentes a medida que la compañía de inteligencia artificial busca expandirse más allá del desarrollo de software hacia aplicaciones empresariales más amplias.
La firma con sede en San Francisco dijo que el modelo mejora el desempeño en tareas de codificación, análisis financiero y procesamiento de documentos en comparación con su predecesor. Anthropic posicionó el lanzamiento como un fortalecimiento de su posición en los flujos de trabajo de IA empresarial, un mercado cada vez más concurrido donde compite directamente con OpenAI y Google.
«Estamos centrados en construir los sistemas de IA más capaces, fiables y seguros», dijo un portavoz de Anthropic. «Opus 4.6 es aún mejor en planificación y ayuda a resolver las tareas de codificación más complejas».
El lanzamiento se produce tres días después de que OpenAI lanzara una aplicación de escritorio para su sistema de codificación Codex AI, lo que subraya el rápido ritmo de la competencia en las herramientas de desarrollo de AI. Anthropic dijo en noviembre que Claude Code, su producto de codificación, alcanzó mil millones de dólares en ingresos anualizados seis meses después de su disponibilidad general.
Contexto ampliado y coordinación de agentes
Opus 4.6 admite hasta un millón de tokens de contexto en versión beta en la plataforma de desarrollo de Anthropic, un aumento sustancial con respecto al límite de 200.000 tokens de versiones anteriores de Opus. La expansión permite que el modelo procese bases de código más grandes y documentos más largos sin dividir tareas en múltiples solicitudes.
La compañía también introdujo equipos de agentes en Claude Code como una vista previa de la investigación, lo que permite que varios agentes de IA trabajen simultáneamente en partes segmentadas de un proyecto. Scott White, jefe de producto de Anthropic, comparó la función con la coordinación de un equipo humano que trabaja en paralelo.
Anthropic dijo que Opus 4.6 aborda la degradación del contexto, un problema común donde el rendimiento de la IA disminuye a medida que las conversaciones se alargan. En una prueba de recuperación que oculta información en grandes volúmenes de texto, Opus 4.6 obtuvo una puntuación del 76% en comparación con el 18,5% de su modelo Sonnet 4.5.
El modelo admite salidas de hasta 128.000 tokens. Anthropic introdujo el pensamiento adaptativo, que permite al modelo determinar cuándo aplicar un razonamiento más profundo, y cuatro configuraciones de esfuerzo que los desarrolladores pueden ajustar para equilibrar el rendimiento, la velocidad y el costo.
Rendimiento de referencia
Anthropic informó que Opus 4.6 lidera Terminal-Bench 2.0, una evaluación de agentes de IA que completan tareas de línea de comandos, con una puntuación del 65,4 % en configuraciones de esfuerzo máximo. La clasificación pública del proyecto Terminal-Bench muestra entradas separadas para Opus 4.6, con una puntuación del 62,9% en una configuración.
En GDPval-AA, un punto de referencia que mide el desempeño en tareas profesionales en los dominios financieros, legales y otros, Anthropic dijo que Opus 4.6 supera al GPT-5.2 de OpenAI en aproximadamente 144 puntos Elo, una brecha que corresponde a una tasa de ganancia de aproximadamente el 70% en comparaciones directas. Artificial Analysis, que mantiene la clasificación GDPval-AA, describe el marco de evaluación en su documentación metodológica.
Anthropic también citó los resultados de BrowseComp, un punto de referencia de OpenAI para agentes de navegación que mide la capacidad de localizar información difícil de encontrar en 1266 preguntas que requieren una navegación web persistente.
Pruebas de seguridad y medidas de ciberseguridad
Anthropic dijo que Opus 4.6 se sometió a extensas evaluaciones de seguridad, incluidas pruebas de engaño, adulación y cooperación con posibles usos indebidos. La tarjeta del sistema de la compañía informa que el modelo mostró bajas tasas de comportamientos problemáticos y logró la tasa más baja de rechazos excesivos entre los modelos Claude recientes.
La empresa desarrolló seis sondas de ciberseguridad para detectar usos nocivos de las capacidades mejoradas del modelo. Anthropic dijo que está utilizando Opus 4.6 para identificar y parchear vulnerabilidades en software de código abierto como parte de los esfuerzos de ciberseguridad defensiva.
«Los agentes tienen un enorme potencial para lograr impactos positivos en el trabajo, pero es importante que los agentes sigan siendo seguros y confiables», dijo el portavoz, refiriéndose a un marco publicado por Anthropic que describe los principios básicos para el desarrollo de agentes.
Integraciones de productos y precios
Anthropic lanzó Claude en PowerPoint como una vista previa de la investigación para suscriptores pagos, basándose en integraciones existentes con Excel. La herramienta PowerPoint lee diseños, fuentes y plantillas de diapositivas para generar presentaciones, dijo la compañía.
White dijo que Anthropic ha observado que el uso de Claude Code se expande más allá de los ingenieros de software hasta llegar a gerentes de producto, analistas financieros y trabajadores de otros campos. La compañía citó implementaciones en Uber, Salesforce, Accenture, Spotify y otras empresas.
Opus 4.6 está disponible en claude.ai y a través de la API de Claude con el identificador claude-opus-4-6. El precio sigue siendo de 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida. Se aplica un precio premium de $10 por millón de tokens de entrada y $37,50 por millón de tokens de salida cuando las solicitudes superan los 200.000 tokens utilizando la ventana contextual de un millón de tokens. El modelo también está disponible a través de Amazon Bedrock y Google Cloud Vertex AI.
El lanzamiento llega cuando el GPT-5.3-Codex de OpenAI comenzó a implementarse a través de GitHub Copilot, según el registro de cambios de GitHub. GitHub describió GPT-5.3-Codex como el último modelo de codificación agente de OpenAI y describió la disponibilidad para los usuarios de Copilot Pro, Business y Enterprise.
Para obtener más información, visite el sitio de Anthropic.
Sobre el autor
John K. Aguas es el editor en jefe de varios sitios Converge360.com, centrándose en el desarrollo de alto nivel, la inteligencia artificial y la tecnología del futuro. Ha estado escribiendo sobre tecnologías de vanguardia y la cultura de Silicon Valley durante más de dos décadas y ha escrito más de una docena de libros. También coescribió el documental. Silicon Valley: un renacimiento de 100 añosque se transmitió por PBS. Se le puede contactar en [email protected].
