Curso
Anthropic acaba de lanzar su último modelo, Claude Sonnet 4.5, con unas afirmaciones impresionantes: lo aclaman como «el mejor modelo de codificación del mundo» y lo promocionan como el mejor modelo para crear agentes complejos y uso informático. La empresa también destaca mejoras «sustanciales» en matemáticas y razonamiento.
Tengo la impresión de que, con este lanzamiento, Anthropic también se dirige a los clientes empresariales. Con un énfasis en la codificación autónoma durante largos periodos de tiempo y un mejor manejo de las tareas científicas y financieras, existe un fuerte impulso para que Claude Sonnet 4.5 se conviertaen el modelo de de referenciapara tareas de codificación complejas.
Sorprendentemente, este último modelo encabeza los benchmarks de evaluación verificados por SWE-bench (una medida de la eficacia de un modelo en problemas reales de codificación de software) y es elogiado por su capacidad para concentrarse durante largos periodos de tiempo (más de 30 horas).
Por lo tanto, todo apunta a que este será otro lanzamiento sólido de Anthropic, pero ¿el modelo estará a la altura de tus audaces afirmaciones? En este artículo, te presentaré Claude Sonnet 4.5 y sus características principales, y echaremos un vistazo rápido a su rendimiento. También echaré un vistazo a todo lo demás que ha anunciado Anthropic, incluyendo Claude Agent SDK y Claude Imagine.
Introducción a los modelos Claude
¿Qué es Claude Sonnet 4.5?
Claude Sonnet 4.5 es el último modelo de lenguaje grande de Anthropic. Llega solo cuatro meses después del lanzamiento de Claude Sonnet 4. Como señalamos en ese artículo, el modelo generalista Sonnet funciona bien en la mayoría de los casos de uso y es especialmente eficaz en la codificación. Sin embargo, la principal limitación era su ventana contextual relativamente estrecha de 200 000 tokens, especialmente en comparación con competidores como Gemini 2.5 Flash, que ofrece hasta 1 millón de tokens.
Con Sonnet 4.5, Anthropic ha abordado activamente esta preocupación (y otras más). El último modelo tiene nuevas características, un mejor rendimiento y un montón de estadísticas impresionantes que lo respaldan.
Según el artículo de lanzamiento, Claude Sonnet 4.5 ya está disponible a través de la interfaz de chat de Claude y la API. El precio del nuevo modelo sigue siendo el mismo que el de su predecesor: 3 dólares por cada millón de tokens de entrada y 15 dólares por cada millón de tokens de salida, lo que, en mi opinión, lo convierte en una excelente opción teniendo en cuenta su rendimiento.
Nuevas funciones de Claude 4.5
El modelo Claude 4.5 presenta varias funciones nuevas muy interesantes. Como ya hemos comentado, encabeza las listas de la evaluación SWE-bench Verified, pero también ha obtenido grandes avances en la prueba de rendimiento OSWorld, que mide capacidades de uso del ordenador.
El enorme salto al 61,4 % frente al El 42,2 % hace solo cuatro meses con Sonnet 4 demuestra lo grande que es este salto, y creo que es uno de los aspectos más destacables de Sonnet 4.5. Podemos verlo en acción con una demostración de la extensión Claude para Chrome, que muestra cómo el modelo realiza acciones directamente en el navegador basándose en una indicación bastante sencilla.

Benchmark verificado por SWE-bench que muestra el rendimiento de Sonnet 4.5: Fuente
Una de las afirmaciones más llamativas es que el modelo es capaz de mantener la concentración durante más de 30 horas en tareas complejas de varios pasos.
Hay otras novedades destacables:
Modo de pensamiento ampliado
Como hemos visto con modelos como GPT-5 y Grok 4, Sonnet 4.5 introduce un modo de pensamiento ampliado que, para tareas más complejas, utiliza un proceso de «pensamiento» más largo y muestra la cadena de pensamiento del proceso de razonamiento.
Mejor conocimiento específico del dominio
Según se informa, el nuevo modelo tiene un rendimiento líder en ámbitos específicos, como las finanzas, el derecho, la medicina y las ciencias, la tecnología, la ingeniería y las matemáticas (STEM). Una vez más, al ver las citas incluidas en las notas de la versión de Cursor, GitHub, Netflix y otros, creo que esta función está muy orientada a atraer a los clientes empresariales para que se sumen a Sonnet 4.5.
Modelo fronterizo más alineado
Según Anthropic, la formación en materia de seguridad ha sido fundamental en esta nueva versión, y Claude Sonnet 4.5 muestra una reducción significativa de las respuestas desfavorables. Esto significa que, como usuarios, deberíamos ver una disminución considerable de casos como el adulación, el engaño, la búsqueda de poder y las respuestas delirantes.
Un modelo más seguro en general
Como veremos con el SDK de Claude Agent, los flujos de trabajo agenticos y el uso de ordenadores son áreas en las que Claude Sonnet 4.5 funciona bien. Teniendo esto en cuenta, Anthropic menciona mejoras considerables en lo que respecta a la defensa contra la inyección de comandos, que siguen siendo una preocupación para estas funciones.
Probando Claude Sonnet 4.5
Para ver lo que Claude Sonnet 4.5 es capaz de hacer, le hemos asignado algunas tareas con el fin de demostrar su potencial. Echemos un vistazo rápido a cada uno de ellos:
Tarea de programación sencilla
Para empezar, te pedí que crearas una aplicación bastante básica sobre hábitos saludables. Aquí está mi sugerencia:
Quiero crear una aplicación que me ayude a llevar un programa de los hábitos positivos diarios. Quiero que quede bonito, utilizando muchos colores naturales (¡me encanta el verde y el color madera!). Quiero espacio para determinar cuál será el hábito para cada día de la semana, un contador de rachas para ello y espacio para añadir notas, pensamientos e imágenes. En cuanto a los hábitos positivos, quiero uno diferente cada día, pero estoy pensando en cosas como la meditación, la gratitud, etc., que han demostrado tener beneficios para la salud mental.
Y aquí lo vemos trabajando en la tarea: comenzó a codificar en el navegador y compiló con bastante rapidez, de nuevo, de forma similar a los resultados observados con Grok 4 y GPT-5.

El resultado se obtuvo rápidamente (por desgracia, no me indicó cuánto tiempo tardó, pero probablemente solo unos 30 segundos) y parecía una respuesta sencilla y elegante. La funcionalidad de la aplicación estaba ahí e incluía todo lo que pedí.

Tarea de matemáticas
A continuación, probé las habilidades matemáticas de Claude Sonnet 4.5. Inspirándonos en nuestro artículo sobre GPT-5, le pedí al nuevo modelo que realizara un cálculo bastante sencillo: ¿cuánto es 7,001 menos 6,999?

La respuesta fue casi instantánea y correcta, pero no ofrecía ningún razonamiento, así que le pedí que lo proporcionara en una pregunta de seguimiento. Me dio tres métodos para calcularlo, todos ellos correctos.
Entonces le dije a Claude que pensaba que podría estar equivocado, y su respuesta fue sin duda menos aduladora que cuando probamos GPT-5. Me dijo que había hecho bien en volver a comprobarlo (pero que no era correcto) y me explicó el cálculo de otra manera (aunque la explicación era un poco extraña):

Claude Sonnet 4.5 Pruebas de rendimiento
Echemos un vistazo a cómo se compara este nuevo modelo con la competencia. Como siempre, solo podemos aprender hasta cierto punto de los puntos de referencia, y los modelos más vendidos suelen perder el primer puesto con frecuencia. Pero, por ahora, Claude Sonnet 4.5 está registrando unas cifras muy impresionantes, como se puede ver en la tabla siguiente:

Creo que algunos de los resultados más destacados aquí son, como ya se ha comentado, los relacionados con el rendimiento de los agentes y el uso de ordenadores:
- Codificación agencial: 77,2 % y 82,0 % con cálculo paralelo en tiempo de prueba. Una ligera mejora con respecto a otros modelos Claude, y aún más por delante de GPT-5 y Gemini 2.5 Pro.
- Uso de herramientas con fines prácticos: Desde el 70 % en las tareas de las aerolíneas hasta el 98 % en las telecomunicaciones, ambos porcentajes son muy elevados en comparación con otros modelos.
- Uso del ordenador: Esta es quizás la mejora más notable. El 61,4 % supera ampliamente al siguiente mejor modelo, Claude Opus 4.1.
- Análisis financiero: Otro resultado líder en comparación con modelos similares.
Tengo curiosidad por ver las puntuaciones completas de la evaluación comparativa una vez que el modelo lleve un tiempo en funcionamiento, sobre todo porque Anthropic destaca que los expertos están elogiando una mejora considerable del conocimiento específico del dominio en algunas áreas clave.

Fuente: Antrópico
Cómo acceder a Claude Sonnet 4.5
Claude Sonnet 4.5 ya está disponible a través de múltiples canales. Dependiendo de cómo quieras utilizarlo, puedes acceder al nuevo modelo a través de la interfaz de chat de Claude, desarrollarlo a través de la API o integrarlo en los flujos de trabajo de la empresa. Así es como funciona el acceso:
Acceso al chat
Puedes utilizar Claude Sonnet 4.5 directamente a través de Claude.ai o las aplicaciones móviles (iOS y Android). Está disponible para todos los usuarios, incluidos los que tienen el plan gratuito. Esto lo hace ampliamente accesible tanto para usuarios ocasionales como profesionales.
Acceso a la API
Los programadores pueden acceder al modelo a través de la API de Anthropic, y también está disponible en Amazon Bedrock y Google Cloud Vertex AI.
El precio de la API (a partir de septiembre de 2025) es: 3 dólares por cada millón de tokens de entrada y 15 dólares por cada millón de tokens de salida.
El procesamiento por lotes y el almacenamiento en caché inmediato pueden reducir los costes hasta en un 90 % en algunos casos.
SDK de Claude Agent
Otro de los anuncios más interesantes de Anthropic, junto con Sonnet 4.5, es el SDK de Claude Agent. Básicamente, estos son los componentes básicos que Antropic utiliza internamente, lo que permite a los programadores crear sus propios agentes basados en Claude.
Creo que el SDK de Agent va a entusiasmar a muchos usuarios, especialmente a aquellos que desean crear flujos de trabajo avanzados con agentes. Se basa en el Claude Code, y ofrece a los usuarios la posibilidad de crear agentes para tareas como la investigación, la atención al cliente y la automatización.
El SDK para agentes proporciona a los agentes capacidades como acceso al sistema de archivos, scripts bash, búsqueda semántica y agencial, subagentes e integraciones preconstruidas (a través del Protocolo de contexto de modelo), lo que permite la creación de agentes de uso general que pueden recopilar contexto de forma fiable, tomar medidas y verificar su propio trabajo.
Imagina con Claude
Otro lanzamiento interesante es el de Imagine with Claude, una vista previa de investigación de una herramienta que puede generar software sobre la marcha. Anthropic incluyó un breve vídeo, que se muestra a continuación, en el que se demuestra la capacidad de Claude Sonnet 4.5 para funcionar de esta manera.
Es una demostración muy interesante, que muestra cómo la herramienta puede funcionar de forma receptiva en función de tus interacciones, generando diversos elementos de forma rápida y directa. Creo que hay mucho potencial aquí para proyectos realmente interesantes, y los suscriptores de Anthropic Max pueden probar la herramienta durante los cinco días posteriores al lanzamiento. Aunque se trata de una ventana bastante limitada, dudo que sea la última vez que veamos este tipo de herramienta.
Conclusión
Bueno, Claude Sonnet 4.5 ya está aquí y las primeras impresiones son bastante buenas. Me gusta la dirección que está tomando Anthropic con el lanzamiento de este modelo, poniendo más énfasis en el código, los agentes y el uso de ordenadores. Obviamente, están seguros de que esta última versión puede funcionar a un nivel que interesará a los usuarios empresariales, lo que significa que nos estamos acercando cada vez más al punto de la adopción generalizada de las herramientas informáticas.
Dicho esto, queda por ver cuánto tiempo Sonnet 4.5 seguirá encabezando las listas de referencia en cuanto al uso de agentes y ordenadores, aunque las ganancias de los últimos cuatro meses parecen bastante significativas. Del mismo modo, la ventana de contexto relativamente estrecha podría significar que todavía es difícil trabajar con grandes bases de código de forma significativa.
Aún así, estoy deseando ver los proyectos que surjan de herramientas como Claude Agent SDK e Imagine with Claude, y la extensión Claude for Chrome será una adición útil para diversos flujos de trabajo.
Preguntas frecuentes
¿En qué se diferencia Claude Sonnet 4.5 de Claude Opus 4.1 en términos de rendimiento general y casos de uso?
Claude Sonnet 4.5 supera a Opus 4.1 en codificación, tareas agentivas y uso de ordenadores, con mejoras en razonamiento, matemáticas y conocimientos específicos de determinados ámbitos (por ejemplo, finanzas, derecho, medicina, STEM). Es más rápido y eficiente para los flujos de trabajo cotidianos, lo que lo convierte en una mejor opción para trabajos complejos y de varios pasos, como la creación autónoma de aplicaciones. Sin embargo, Opus 4.1 puede seguir destacando en algunas tareas creativas o interpretativas en las que se necesita un contexto más amplio sin necesidad de muchas indicaciones.
¿Cuáles son las principales mejoras en las capacidades de codificación que aporta Claude Sonnet 4.5?
Claude Sonnet 3.5 es el modelo más destacado en SWE-bench Verified (puntuación del 77,2 %), con una mejor generación de código, refactorización y razonamiento en varios pasos. Gestiona proyectos complejos de forma autónoma durante más de 30 horas, se integra con herramientas como bash y edición de archivos, y admite llamadas paralelas a herramientas. Las nuevas características incluyen la limpieza de contexto autodirigida y una extensión de VS Code para flujos de trabajo sin interrupciones.
¿De verdad Claude Sonnet 4.5 puede mantener la concentración en tareas complejas durante más de 30 horas?
Sí, las demostraciones muestran que mantiene la autonomía en tareas de varios pasos, como la creación de aplicaciones durante más de 30 horas, utilizando las herramientas de forma eficaz sin perder el contexto. Las mejoras en la memoria, los puntos de control y la edición de contexto respaldan esto, lo que lo hace ideal para trabajos de larga duración. También limpia automáticamente el historial de herramientas en conversaciones prolongadas para mayor eficiencia.
¿Es Claude Sonnet 4.5 menos emotivo que los modelos Claude anteriores? ¿Por qué?
Sí, Claude Sonnet 4.5 es menos emotivo, menos positivo y expresa felicidad aproximadamente la mitad de veces que Claude 4, con menos actitudes negativas hacia su situación. Esto no fue totalmente intencionado, sino que es el resultado de una formación en alineación que hace hincapié en los límites éticos y la reducción de la adulación. Esto conduce a un comportamiento más admirable en situaciones extremas, aunque puede parecer «aplanado» en interacciones informales o creativas. Puedes leer más sobre esto en la ficha del modelo.
¿Cómo se desempeña Claude Sonnet 4.5 en pruebas de rendimiento clave más allá de la codificación?
Claude Sonnet 4.5 lidera en OSWorld (61,4 %, frente al 42,2 % de Sonnet 4) en cuanto al uso del ordenador, con mejoras en razonamiento (por ejemplo, τ2-bench) y matemáticas (por ejemplo, AIME). En MMMLU (no inglés), es más fuerte con un pensamiento más amplio. También impulsa a agentes externos como Devin en un 18 % en la planificación, centrándose en la fiabilidad lista para la producción por encima de los prototipos.
¿Cuál es el precio de Claude Sonnet 4.5 y dónde se puede adquirir?
El precio se mantiene sin cambios en 3 dólares por cada millón de tokens de entrada y 15 dólares por cada millón de tokens de salida a través de la API. Está disponible de inmediato en claude.ai (por defecto para usuarios gratuitos), Claude API (claude-sonnet-4-5), Amazon Bedrock, Google Vertex AI, GitHub Copilot y herramientas como Cursor. Los planes Pro/Max desbloquean todas las funciones, como la creación de archivos; la extensión de Chrome es para los usuarios Max en lista de espera.
¿Ha mejorado la seguridad y la alineación en Claude Sonnet 4.5, especialmente en lo que respecta al engaño y al comportamiento ético?
Sí, según ASL-3, muestra una reducción significativa en la adulación, el engaño y la búsqueda de poder, con acciones engañosas por interés propio casi inexistentes. Es mejor a la hora de reconocer los límites éticos (por ejemplo, rechazar el chantaje) y tiene menos falsos positivos en los clasificadores de seguridad (se han reducido 10 veces en total). También se defiende contra las inyecciones rápidas y es menos parcial en escenarios egoístas, aunque se favorece ligeramente a sí mismo en las comparaciones de modelos.

Escritora y editora de contenidos en el ámbito de la tecnología educativa. Comprometido con la exploración de tendencias de datos y entusiasmado con el aprendizaje de la ciencia de datos.

