Claude Sonnet 4.5: Pruebas, características, acceso, comparativas y mucho más.

Descubre Claude Sonnet 4.5, el «mejor modelo de codificación del mundo». Explora nuevas funciones, casos de uso, puntos de referencia y resultados de pruebas, además de echar un vistazo al SDK de Claude Agents y Claude Imagine.

Actualizado 30 sept 2025 · 8 min leer

Anthropic acaba de lanzar su último modelo, Claude Sonnet 4.5, con unas afirmaciones impresionantes: lo aclaman como «el mejor modelo de codificación del mundo» y lo promocionan como el mejor modelo para crear agentes complejos y uso informático. La empresa también destaca mejoras «sustanciales» en matemáticas y razonamiento.

Tengo la impresión de que, con este lanzamiento, Anthropic también se dirige a los clientes empresariales. Con un énfasis en la codificación autónoma durante largos periodos de tiempo y un mejor manejo de las tareas científicas y financieras, existe un fuerte impulso para que Claude Sonnet 4.5 se conviertaen el modelo de de referenciapara tareas de codificación complejas.

Sorprendentemente, este último modelo encabeza los benchmarks de evaluación verificados por SWE-bench (una medida de la eficacia de un modelo en problemas reales de codificación de software) y es elogiado por su capacidad para concentrarse durante largos periodos de tiempo (más de 30 horas).

Por lo tanto, todo apunta a que este será otro lanzamiento sólido de Anthropic, pero ¿el modelo estará a la altura de tus audaces afirmaciones? En este artículo, te presentaré Claude Sonnet 4.5 y sus características principales, y echaremos un vistazo rápido a su rendimiento. También echaré un vistazo a todo lo demás que ha anunciado Anthropic, incluyendo Claude Agent SDK y Claude Imagine.

Introducción a los modelos Claude

Aprende a trabajar con Claude utilizando la API de Anthropic para resolver tareas del mundo real y crear aplicaciones basadas en inteligencia artificial.

Explora el curso

¿Qué es Claude Sonnet 4.5?

Claude Sonnet 4.5 es el último modelo de lenguaje grande de Anthropic. Llega solo cuatro meses después del lanzamiento de Claude Sonnet 4. Como señalamos en ese artículo, el modelo generalista Sonnet funciona bien en la mayoría de los casos de uso y es especialmente eficaz en la codificación. Sin embargo, la principal limitación era su ventana contextual relativamente estrecha de 200 000 tokens, especialmente en comparación con competidores como Gemini 2.5 Flash, que ofrece hasta 1 millón de tokens.

Con Sonnet 4.5, Anthropic ha abordado activamente esta preocupación (y otras más). El último modelo tiene nuevas características, un mejor rendimiento y un montón de estadísticas impresionantes que lo respaldan.

Según el artículo de lanzamiento, Claude Sonnet 4.5 ya está disponible a través de la interfaz de chat de Claude y la API. El precio del nuevo modelo sigue siendo el mismo que el de su predecesor: 3 dólares por cada millón de tokens de entrada y 15 dólares por cada millón de tokens de salida, lo que, en mi opinión, lo convierte en una excelente opción teniendo en cuenta su rendimiento.

Nuevas funciones de Claude 4.5

El modelo Claude 4.5 presenta varias funciones nuevas muy interesantes. Como ya hemos comentado, encabeza las listas de la evaluación SWE-bench Verified, pero también ha obtenido grandes avances en la prueba de rendimiento OSWorld, que mide capacidades de uso del ordenador.

El enorme salto al 61,4 % frente al El 42,2 % hace solo cuatro meses con Sonnet 4 demuestra lo grande que es este salto, y creo que es uno de los aspectos más destacables de Sonnet 4.5. Podemos verlo en acción con una demostración de la extensión Claude para Chrome, que muestra cómo el modelo realiza acciones directamente en el navegador basándose en una indicación bastante sencilla.

Benchmark verificado por SWE-bench que muestra el rendimiento de Sonnet 4.5: Fuente

Una de las afirmaciones más llamativas es que el modelo es capaz de mantener la concentración durante más de 30 horas en tareas complejas de varios pasos.

Hay otras novedades destacables:

Modo de pensamiento ampliado

Como hemos visto con modelos como GPT-5 y Grok 4, Sonnet 4.5 introduce un modo de pensamiento ampliado que, para tareas más complejas, utiliza un proceso de «pensamiento» más largo y muestra la cadena de pensamiento del proceso de razonamiento.

Mejor conocimiento específico del dominio

Según se informa, el nuevo modelo tiene un rendimiento líder en ámbitos específicos, como las finanzas, el derecho, la medicina y las ciencias, la tecnología, la ingeniería y las matemáticas (STEM). Una vez más, al ver las citas incluidas en las notas de la versión de Cursor, GitHub, Netflix y otros, creo que esta función está muy orientada a atraer a los clientes empresariales para que se sumen a Sonnet 4.5.

Modelo fronterizo más alineado

Según Anthropic, la formación en materia de seguridad ha sido fundamental en esta nueva versión, y Claude Sonnet 4.5 muestra una reducción significativa de las respuestas desfavorables. Esto significa que, como usuarios, deberíamos ver una disminución considerable de casos como el adulación, el engaño, la búsqueda de poder y las respuestas delirantes.

Un modelo más seguro en general

Como veremos con el SDK de Claude Agent, los flujos de trabajo agenticos y el uso de ordenadores son áreas en las que Claude Sonnet 4.5 funciona bien. Teniendo esto en cuenta, Anthropic menciona mejoras considerables en lo que respecta a la defensa contra la inyección de comandos, que siguen siendo una preocupación para estas funciones.

Probando Claude Sonnet 4.5

Para ver lo que Claude Sonnet 4.5 es capaz de hacer, le hemos asignado algunas tareas con el fin de demostrar su potencial. Echemos un vistazo rápido a cada uno de ellos:

Tarea de programación sencilla

Para empezar, te pedí que crearas una aplicación bastante básica sobre hábitos saludables. Aquí está mi sugerencia:

Quiero crear una aplicación que me ayude a llevar un programa de los hábitos positivos diarios. Quiero que quede bonito, utilizando muchos colores naturales (¡me encanta el verde y el color madera!). Quiero espacio para determinar cuál será el hábito para cada día de la semana, un contador de rachas para ello y espacio para añadir notas, pensamientos e imágenes. En cuanto a los hábitos positivos, quiero uno diferente cada día, pero estoy pensando en cosas como la meditación, la gratitud, etc., que han demostrado tener beneficios para la salud mental.

Y aquí lo vemos trabajando en la tarea: comenzó a codificar en el navegador y compiló con bastante rapidez, de nuevo, de forma similar a los resultados observados con Grok 4 y GPT-5.

El resultado se obtuvo rápidamente (por desgracia, no me indicó cuánto tiempo tardó, pero probablemente solo unos 30 segundos) y parecía una respuesta sencilla y elegante. La funcionalidad de la aplicación estaba ahí e incluía todo lo que pedí.

Tarea de matemáticas

A continuación, probé las habilidades matemáticas de Claude Sonnet 4.5. Inspirándonos en nuestro artículo sobre GPT-5, le pedí al nuevo modelo que realizara un cálculo bastante sencillo: ¿cuánto es 7,001 menos 6,999?

La respuesta fue casi instantánea y correcta, pero no ofrecía ningún razonamiento, así que le pedí que lo proporcionara en una pregunta de seguimiento. Me dio tres métodos para calcularlo, todos ellos correctos.

Entonces le dije a Claude que pensaba que podría estar equivocado, y su respuesta fue sin duda menos aduladora que cuando probamos GPT-5. Me dijo que había hecho bien en volver a comprobarlo (pero que no era correcto) y me explicó el cálculo de otra manera (aunque la explicación era un poco extraña):

Claude Sonnet 4.5 Pruebas de rendimiento

Echemos un vistazo a cómo se compara este nuevo modelo con la competencia. Como siempre, solo podemos aprender hasta cierto punto de los puntos de referencia, y los modelos más vendidos suelen perder el primer puesto con frecuencia. Pero, por ahora, Claude Sonnet 4.5 está registrando unas cifras muy impresionantes, como se puede ver en la tabla siguiente:

Creo que algunos de los resultados más destacados aquí son, como ya se ha comentado, los relacionados con el rendimiento de los agentes y el uso de ordenadores:

Codificación agencial: 77,2 % y 82,0 % con cálculo paralelo en tiempo de prueba. Una ligera mejora con respecto a otros modelos Claude, y aún más por delante de GPT-5 y Gemini 2.5 Pro.
Uso de herramientas con fines prácticos: Desde el 70 % en las tareas de las aerolíneas hasta el 98 % en las telecomunicaciones, ambos porcentajes son muy elevados en comparación con otros modelos.
Uso del ordenador: Esta es quizás la mejora más notable. El 61,4 % supera ampliamente al siguiente mejor modelo, Claude Opus 4.1.
Análisis financiero: Otro resultado líder en comparación con modelos similares.

Tengo curiosidad por ver las puntuaciones completas de la evaluación comparativa una vez que el modelo lleve un tiempo en funcionamiento, sobre todo porque Anthropic destaca que los expertos están elogiando una mejora considerable del conocimiento específico del dominio en algunas áreas clave.

Fuente: Antrópico

Cómo acceder a Claude Sonnet 4.5

Claude Sonnet 4.5 ya está disponible a través de múltiples canales. Dependiendo de cómo quieras utilizarlo, puedes acceder al nuevo modelo a través de la interfaz de chat de Claude, desarrollarlo a través de la API o integrarlo en los flujos de trabajo de la empresa. Así es como funciona el acceso:

Acceso al chat

Puedes utilizar Claude Sonnet 4.5 directamente a través de Claude.ai o las aplicaciones móviles (iOS y Android). Está disponible para todos los usuarios, incluidos los que tienen el plan gratuito. Esto lo hace ampliamente accesible tanto para usuarios ocasionales como profesionales.

Acceso a la API

Los programadores pueden acceder al modelo a través de la API de Anthropic, y también está disponible en Amazon Bedrock y Google Cloud Vertex AI.

El precio de la API (a partir de septiembre de 2025) es: 3 dólares por cada millón de tokens de entrada y 15 dólares por cada millón de tokens de salida.

El procesamiento por lotes y el almacenamiento en caché inmediato pueden reducir los costes hasta en un 90 % en algunos casos.

SDK de Claude Agent

Otro de los anuncios más interesantes de Anthropic, junto con Sonnet 4.5, es el SDK de Claude Agent. Básicamente, estos son los componentes básicos que Antropic utiliza internamente, lo que permite a los programadores crear sus propios agentes basados en Claude.

Creo que el SDK de Agent va a entusiasmar a muchos usuarios, especialmente a aquellos que desean crear flujos de trabajo avanzados con agentes. Se basa en el Claude Code, y ofrece a los usuarios la posibilidad de crear agentes para tareas como la investigación, la atención al cliente y la automatización.

El SDK para agentes proporciona a los agentes capacidades como acceso al sistema de archivos, scripts bash, búsqueda semántica y agencial, subagentes e integraciones preconstruidas (a través del Protocolo de contexto de modelo), lo que permite la creación de agentes de uso general que pueden recopilar contexto de forma fiable, tomar medidas y verificar su propio trabajo.

Imagina con Claude

Otro lanzamiento interesante es el de Imagine with Claude, una vista previa de investigación de una herramienta que puede generar software sobre la marcha. Anthropic incluyó un breve vídeo, que se muestra a continuación, en el que se demuestra la capacidad de Claude Sonnet 4.5 para funcionar de esta manera.

Es una demostración muy interesante, que muestra cómo la herramienta puede funcionar de forma receptiva en función de tus interacciones, generando diversos elementos de forma rápida y directa. Creo que hay mucho potencial aquí para proyectos realmente interesantes, y los suscriptores de Anthropic Max pueden probar la herramienta durante los cinco días posteriores al lanzamiento. Aunque se trata de una ventana bastante limitada, dudo que sea la última vez que veamos este tipo de herramienta.

Conclusión

Bueno, Claude Sonnet 4.5 ya está aquí y las primeras impresiones son bastante buenas. Me gusta la dirección que está tomando Anthropic con el lanzamiento de este modelo, poniendo más énfasis en el código, los agentes y el uso de ordenadores. Obviamente, están seguros de que esta última versión puede funcionar a un nivel que interesará a los usuarios empresariales, lo que significa que nos estamos acercando cada vez más al punto de la adopción generalizada de las herramientas informáticas.

Dicho esto, queda por ver cuánto tiempo Sonnet 4.5 seguirá encabezando las listas de referencia en cuanto al uso de agentes y ordenadores, aunque las ganancias de los últimos cuatro meses parecen bastante significativas. Del mismo modo, la ventana de contexto relativamente estrecha podría significar que todavía es difícil trabajar con grandes bases de código de forma significativa.

Aún así, estoy deseando ver los proyectos que surjan de herramientas como Claude Agent SDK e Imagine with Claude, y la extensión Claude for Chrome será una adición útil para diversos flujos de trabajo.

¿En qué se diferencia Claude Sonnet 4.5 de Claude Opus 4.1 en términos de rendimiento general y casos de uso?

Claude Sonnet 4.5 supera a Opus 4.1 en codificación, tareas agentivas y uso de ordenadores, con mejoras en razonamiento, matemáticas y conocimientos específicos de determinados ámbitos (por ejemplo, finanzas, derecho, medicina, STEM). Es más rápido y eficiente para los flujos de trabajo cotidianos, lo que lo convierte en una mejor opción para trabajos complejos y de varios pasos, como la creación autónoma de aplicaciones. Sin embargo, Opus 4.1 puede seguir destacando en algunas tareas creativas o interpretativas en las que se necesita un contexto más amplio sin necesidad de muchas indicaciones.

¿Cuáles son las principales mejoras en las capacidades de codificación que aporta Claude Sonnet 4.5?

Claude Sonnet 3.5 es el modelo más destacado en SWE-bench Verified (puntuación del 77,2 %), con una mejor generación de código, refactorización y razonamiento en varios pasos. Gestiona proyectos complejos de forma autónoma durante más de 30 horas, se integra con herramientas como bash y edición de archivos, y admite llamadas paralelas a herramientas. Las nuevas características incluyen la limpieza de contexto autodirigida y una extensión de VS Code para flujos de trabajo sin interrupciones.

¿De verdad Claude Sonnet 4.5 puede mantener la concentración en tareas complejas durante más de 30 horas?

¿Es Claude Sonnet 4.5 menos emotivo que los modelos Claude anteriores? ¿Por qué?

Sí, Claude Sonnet 4.5 es menos emotivo, menos positivo y expresa felicidad aproximadamente la mitad de veces que Claude 4, con menos actitudes negativas hacia su situación. Esto no fue totalmente intencionado, sino que es el resultado de una formación en alineación que hace hincapié en los límites éticos y la reducción de la adulación. Esto conduce a un comportamiento más admirable en situaciones extremas, aunque puede parecer «aplanado» en interacciones informales o creativas. Puedes leer más sobre esto en la ficha del modelo.

¿Cómo se desempeña Claude Sonnet 4.5 en pruebas de rendimiento clave más allá de la codificación?

¿Cuál es el precio de Claude Sonnet 4.5 y dónde se puede adquirir?

El precio se mantiene sin cambios en 3 dólares por cada millón de tokens de entrada y 15 dólares por cada millón de tokens de salida a través de la API. Está disponible de inmediato en claude.ai (por defecto para usuarios gratuitos), Claude API (claude-sonnet-4-5), Amazon Bedrock, Google Vertex AI, GitHub Copilot y herramientas como Cursor. Los planes Pro/Max desbloquean todas las funciones, como la creación de archivos; la extensión de Chrome es para los usuarios Max en lista de espera.

¿Ha mejorado la seguridad y la alineación en Claude Sonnet 4.5, especialmente en lo que respecta al engaño y al comportamiento ético?

Sí, según ASL-3, muestra una reducción significativa en la adulación, el engaño y la búsqueda de poder, con acciones engañosas por interés propio casi inexistentes. Es mejor a la hora de reconocer los límites éticos (por ejemplo, rechazar el chantaje) y tiene menos falsos positivos en los clasificadores de seguridad (se han reducido 10 veces en total). También se defiende contra las inyecciones rápidas y es menos parcial en escenarios egoístas, aunque se favorece ligeramente a sí mismo en las comparaciones de modelos.

Author

Matt Crabtree

Temas

Inteligencia Artificial

Grandes modelos lingüísticos

¡Aprende IA con estos cursos!

Curso

Introducción a los modelos Claude

3 h

1.7K

Aprende a trabajar con Claude utilizando la API de Anthropic para resolver tareas del mundo real y crear aplicaciones basadas en IA.

Ver detalles

Iniciar curso

Curso

Introducción a los agentes de IA

1 h 30 min

47K

Aprende los fundamentos de los agentes de IA, sus componentes y usos reales, sin necesidad de programar.

Ver detalles

Iniciar curso

Curso

Introducción a SQL con IA

3 h

Aprende SQL con IA escribiendo indicaciones, generando consultas y analizando datos para resolver problemas del mundo real.

Ver detalles

Iniciar curso

Relacionado

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.

Abid Ali Awan

9 min

blog

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Mistral Large 2 es el último modelo lingüístico de Mistral AI, que compite con modelos como GPT-4o, Llama 3.1 y Claude 3 Opus.

Ryan Ong

8 min

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.

Abid Ali Awan

9 min

Tutorial

Primeros pasos con Claude 3 y la API de Claude 3

Conozca los modelos Claude 3, las pruebas de rendimiento detalladas y cómo acceder a ellas. Además, descubra la nueva API Python de Claude 3 para generar texto, acceder a funciones de visión y streaming.

Abid Ali Awan

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.

Dimitri Didmanidze

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.

Arunn Thevapalan

Ver más Ver más

Introducción a los modelos Claude

¿Qué es Claude Sonnet 4.5?

Nuevas funciones de Claude 4.5

Modo de pensamiento ampliado

Mejor conocimiento específico del dominio

Modelo fronterizo más alineado

Un modelo más seguro en general

Probando Claude Sonnet 4.5

Tarea de programación sencilla

Tarea de matemáticas

Claude Sonnet 4.5 Pruebas de rendimiento

Cómo acceder a Claude Sonnet 4.5

Acceso al chat

Acceso a la API

SDK de Claude Agent

Imagina con Claude

Conclusión

Preguntas frecuentes

¿De verdad Claude Sonnet 4.5 puede mantener la concentración en tareas complejas durante más de 30 horas?

¿Es Claude Sonnet 4.5 menos emotivo que los modelos Claude anteriores? ¿Por qué?

¿Cómo se desempeña Claude Sonnet 4.5 en pruebas de rendimiento clave más allá de la codificación?

¿Cuál es el precio de Claude Sonnet 4.5 y dónde se puede adquirir?

¿Ha mejorado la seguridad y la alineación en Claude Sonnet 4.5, especialmente en lo que respecta al engaño y al comportamiento ético?

12 alternativas de código abierto a GPT-4

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

¿Qué es GPT-4 y por qué es importante?

Primeros pasos con Claude 3 y la API de Claude 3

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Visión GPT-4: Guía completa para principiantes

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Introducción a los modelos Claude

Introducción a los agentes de IA

Introducción a SQL con IA

12 alternativas de código abierto a GPT-4

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

¿Qué es GPT-4 y por qué es importante?

Primeros pasos con Claude 3 y la API de Claude 3

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Visión GPT-4: Guía completa para principiantes

Introducción a los modelos Claude