El modelo Sonnet más capaz jamás creado por Anthropic: Sonnet 4.6

Anthropic, que anunció su nuevo modelo de inteligencia artificial Claude Opus 4.6 hace unas dos semanas, ahora ha lanzado Sonnet 4.6, una nueva versión del modelo Sonnet. El modelo es una actualización completa en codificación, informática, razonamiento de contexto largo, planificación de agentes, trabajo de conocimiento y diseño. En su publicación, la empresa llamó la atención sobre las mejoras realizadas en la codificación, el seguimiento de instrucciones y el uso de la computadora.

La versión beta de Sonnet 4.6 incluirá una ventana contextual de 1 millón de tokens. Esto es el doble del tamaño de la ventana de contexto más grande disponible anteriormente para Sonnet. Según Antrópico; La nueva ventana de contexto es suficiente para acomodar bases de código completas, contratos largos o docenas de artículos de investigación en una sola solicitud.

Interpretación del Soneto 4.6

Con el lanzamiento de Sonnet 4.6, podemos decir que ha logrado resultados notables en muchos criterios. Estos son para uso informático. Mundo del sistema operativo y para ingeniería de software Banco SWE incluido. Pruebas estándar de la industria para codificación de software del mundo real SWE-bench VerificadoSoneto 4.6, 79,6 puntos porcentuales tomando Opus 4.6 al 80,8 por ciento mostró una actuación muy igualada.

Criterios de uso del ordenador del agente OSWorld-Verified’del Soneto 4.6, 72,5 por ciento clasificado y Opus 4.6 al 72,7 por ciento era casi igual. Tareas de oficina benchmark GDPval-AA en Elo, Soneto 4.6, 1633 puntos tomando Opus 4.6 superó los 1606 puntos. Sonnet 4.6 en el análisis financiero de agentes una puntuación del 63,3 por ciento tomando, con una puntuación del 60,1 por ciento Superó a todos los modelos de la comparación, incluido el Opus 4.6.

Además, el modelo está diseñado para medir habilidades específicas de la inteligencia humana. ARCO-AGI-2obtenido en puntuación de 60,4 por ciento Logró llamar la atención con. Esta puntuación Soneto 4.6 Supera a la mayoría de modelos similares. Por otro lado, el modelo va por detrás de modelos como Opus 4.6, Gemini 3 Deep Think y una versión mejorada de GPT 5.2 en este criterio. Sin embargo, podemos decir que Sonnet 4.6 logró alcanzar o superar a los modelos cuyo funcionamiento cuesta aproximadamente cinco veces más en muchas categorías que más interesan a las empresas.

¿Cómo ha evolucionado la función informática de Anthropic con el tiempo?

Con Sonnet 4.6, también llama la atención el avance de Anthropic en el uso de la informática. La informática se refiere a la capacidad de una IA para usar una computadora como un humano, hacer clic con el mouse, escribir en un teclado y usar software sin API modernas.

Anthropic, que introdujo esta función por primera vez en octubre de 2024, declaró en ese momento que la función aún era experimental, a veces engorrosa y propensa a errores. Desde entonces, el rendimiento en la medida del uso de la computadora ha aumentado significativamente. En el índice de referencia OSWorld, Claude Sonnet obtuvo un 3,5, un 14,9 por ciento en octubre de 2024. Sonnet 3.7 alcanzó un 28,0 por ciento en febrero de 2025. Sonnet 4 alcanzó un 42,2 por ciento en junio. Sonnet 4,5 subió hasta el 61,4 por ciento en octubre. Ahora Sonnet 4.6 alcanza el 72,5 por ciento, una mejora de casi cinco veces en 16 meses.

Claude Sonnet 4.6, en todos los planes Claude, Claude Cowork, Código Claude, API y ahora está disponible en todas las principales plataformas en la nube. Sonnet 4.6 será el modelo predeterminado para los usuarios de los planes Free y Pro. Los desarrolladores pueden acceder inmediatamente a claude-sonnet-4-6 a través de la API de Claude. Se espera que el modelo Haiku actualizado de Anthropic se lance en las próximas semanas.

Interpretación del Soneto 4.6

¿Cómo ha evolucionado la función informática de Anthropic con el tiempo?

Comparte esto: