Los nuevos avances de inteligencia artificial de Anthrope: Claude 3.7 Sonnet y Claude Code

Antrópico, Ayer «modelo de razonamiento híbrido» Claude 3.7 soneto‘Presenté. Claude 3.7, que puede resolver problemas más complejos, funciona mejor que los modelos anteriores en áreas como soneto, matemáticas y codificación. La razón por la cual el soneto Claude 3.7 se define como híbrido es que son respuestas de tiempo real y un solo modelo que puede dar respuestas más detalladas y reflexivas a las preguntas.

Hasta ahora, Openai, Deepseek, Google y Xai decidieron publicar modelos de razonamiento. A diferencia de esta tendencia Líder de investigación de productos antrópicos Dianne PennDijo que la compañía quería simplificar el uso de un modelo. Según Penn, Anthrope cree que el razonamiento no es algo completamente separado, sino una característica de la inteligencia artificial. De hecho, la compañía respalda su opinión con las siguientes declaraciones que usa en su publicación de blog:

Similar al hecho de que las personas no tienen dos cerebros separados para las preguntas que se pueden responder inmediatamente con preguntas que pueden responder. en un modelo separado, pero con otras habilidades.

Este enfoque de la compañía también coincide con la hoja de ruta recientemente anunciada de Operai. Sam Altman compartido en las últimas semanas El envío declaró que querían hacer un trabajo mucho mejor para simplificar las ofertas de productos de la compañía y agregó que querían regresar a United Intelligence.

Detalles de Claude 3.7 soneto

Según la información compartida por Dianne Penn; Claude 3.7 soneto, Codificación de agentes, finanzas Y ley Se desempeña significativamente mejor en sus deberes.

Soneto Claude 3.7 en Swe-Bench, una prueba que mide las tareas de codificación del mundo real 62.3 por ciento Dio el resultado correcto. Modelo O3-Mini de Openai en el mismo criterio 49.3 por ciento anotado. Modelo O1 de OpenAI en Tau-Bench, otra prueba que mide la capacidad de un modelo de inteligencia artificial para interactuar con los usuarios y las API externos en un entorno minorista 73.5 por ciento Al obtener puntos, Claude 3.7 soneto, 81.2 por ciento anotado.

Claude aún no tiene la función de búsqueda web que vemos en otros modelos, pero la base de información de la versión 3.7 cubre información hasta octubre de 2024, una fecha más actual.

Los usuarios pueden elegir si habilitarán las capacidades de «razonamiento» de Claude 3.7 Sonnet. Además, Anthrope permite a los desarrolladores guiar el modelo del modelo a través de Scratchpad. En este contexto, los desarrolladores pueden incluso determinar cuánto tiempo responderá el modelo.

Según la información de Penn, los empleados de Anthrope crearon diseños de sitios web front-end y juegos interactivos utilizando el nuevo modelo. Los empleados pasaron un tiempo hasta 45 minutos creando conjuntos de pruebas y reversionando los escenarios de prueba con repetición.

Evaluación con el juego Pokémon

Además, los modelos de la compañía se probaron en términos de habilidades de progreso en Pokémon Red, uno de los clásicos de Game Boy, que coincide con la API del modelo con un esquema de control. Claude 3.5 Sonnet no pudo salir de Pallet Town al comienzo del juego, la versión 3.7 pudo vencer a más de un líder de gimnasio.

El cálculo del soneto de Claude 3.7 para lograr este éxito y cuánto tiempo llevó cada cálculo. Por otro lado, Anthrope dijo que el modelo solo tomó 35,000 acciones para llegar al último líder del líder del gimnasio.

Precios y acceso

El soneto de Claude 3.7 es del lunes En la aplicación Claude reemplazará. Sin embargo, el nuevo modelo se presentará a los desarrolladores a través de la API de Anthrope, Amazon Bedrock y la plataforma Vertex AI de Google Cloud.

El costo del modelo es el mismo que el modelo anterior, soneto 3.5. En este sentido, Claude 3.7 Sonnet, un millón de tokenos de entrada 3 dólares por millón y un millón de token de salida cuesta $ 15 por token. El modelo es más caro que el modelo de razonamiento R1 de O3-Mini y Deepseek de Openai. La entrada de entrada O3-Mini Million es de $ 1.10 por jet y 4,40 dólares por millón de salida de salida, mientras que el R1 tiene un precio de $ 2.19 por millón de tokeno de entrada y un millón de token de salida. Podemos decir que esta diferencia se debe al hecho de que el soneto Claude 3.7 es un modelo híbrido.

Código Claude

Además del nuevo modelo, Anthrope reúne la vista previa de investigación limitada de la herramienta de línea de comandos para la codificación orientada al agente llamada Claude Code. Anthrope, que ha admitido vehículos como Cursor hasta ahora, Claude Code Un asistente activo que puede buscar y leer código, editar archivos, escribir y ejecutar pruebas, procesar y enviar código a GitHub, y usar vehículos de línea de comandos. Define como.

https://www.youtube.com/watch?v=ajpk3yttkz4

Empleados antrópicos en una demostración, Claude Code’un «Explique esta estructura del proyecto». Con un comando simple similar a cómo analizar un proyecto de codificación. Un desarrollador que usa el vehículo puede cambiar una base de código usando el inglés en la línea de comandos. En este contexto, Claude Code puede probar un proyecto para errores más allá del anuncio de sus regulaciones mientras realiza cambios.

Anthrope, que tiene preferencia para progresar de una manera más segura con los pasos seguros hasta ahora, hace un notable avance con Claude 3.7 Sonnet y Claude Code. La compañía se comporta antes de Openai en modelo híbrido e inteligencia artificial unificada, un reflejo serio de aumentar la competencia en el campo de la inteligencia artificial.

Detalles de Claude 3.7 soneto

Evaluación con el juego Pokémon

Precios y acceso

Código Claude

Comparte esto: