Accéder au contenu principal

Claude Sonnet 4.5 : Tests, fonctionnalités, accès, benchmarks et plus encore

Découvrez Claude Sonnet 4.5, le « meilleur modèle de codage au monde ». Découvrez les nouvelles fonctionnalités, les cas d'utilisation, les benchmarks et les résultats des tests, ainsi qu'un aperçu du SDK Claude Agents et de Claude Imagine.
Actualisé 30 sept. 2025  · 8 min de lecture

Anthropic vient de lancer son dernier modèle, Claude Sonnet 4.5, avec des affirmations impressionnantes : ils le présentent comme « le meilleur modèle de codage au monde » et le vantent comme le modèle haut de gamme pour la création d'agents complexes et l'utilisation informatique. La société souligne également des améliorations « substantielles » en mathématiques et en raisonnement.

J'ai l'impression qu'avec cette version, Anthropic vise également les entreprises. En mettant l'accent sur le codage autonome sur de longues périodes et une meilleure gestion des tâches scientifiques et financières, Claude Sonnet 4.5 est fortement encouragé à devenir le modèle d' de référencepour les tâches de codage complexes.

Il est remarquable que ce dernier modèle arrive en tête des benchmarks d'évaluation SWE-bench Verified (qui mesurent la performance d'un modèle face à des problèmes de codage logiciel réels) et soit salué pour sa capacité à rester concentré pendant de longues périodes (plus de 30 heures).

Tout semble donc indiquer qu'il s'agit d'une nouvelle version performante d'Anthropic, mais le modèle sera-t-il à la hauteur de ces affirmations audacieuses ? Dans cet article, je vous présenterai Claude Sonnet 4.5 et ses principales fonctionnalités, et nous examinerons brièvement ses performances. Je vais également examiner toutes les autres annonces d'Anthropic, notamment Claude Agent SDK et Claude Imagine.

Présentation des modèles Claude

Découvrez comment utiliser Claude avec l'API Anthropic pour résoudre des problèmes concrets et créer des applications basées sur l'IA.
Découvrez le cours

Qu'est-ce que Claude Sonnet 4.5 ? 

Claude Sonnet 4.5 est le dernier modèle linguistique de grande taille développé par Anthropic. Cela survient seulement quatre mois après la sortie de Claude Sonnet 4. Comme nous l'avons mentionné dans cet article, le modèle généraliste Sonnet offre de bonnes performances dans la plupart des cas d'utilisation, et il est particulièrement performant en matière de codage. La principale limitation résidait toutefois dans sa fenêtre contextuelle relativement restreinte de 200 000 jetons, en particulier par rapport à des concurrents tels que Gemini 2.5 Flash, qui offre jusqu'à 1 million de jetons.

Avec Sonnet 4.5, Anthropic a activement répondu à cette préoccupation (et bien plus encore). Le dernier modèle présente de nouvelles fonctionnalités, des performances améliorées et de nombreuses caractéristiques impressionnantes qui le justifient. 

Selon l'article de presse, Claude Sonnet 4.5 est disponible immédiatement via l'interface de chat Claude et l'API. Le prix du nouveau modèle reste identique à celui de son prédécesseur, soit 3 dollars par million de jetons d'entrée et 15 dollars par million de jetons de sortie, ce qui, à mon avis, en fait un excellent rapport qualité-prix compte tenu de ses performances.

Nouvelles fonctionnalités de Claude 4.5 

Le modèle Claude 4.5 présente plusieurs nouvelles fonctionnalités intéressantes. Comme nous l'avons mentionné, il arrive en tête du classement de l'évaluation SWE-bench Verified, mais il affiche également des gains considérables dans le benchmark OSWorld, qui mesure l'capacités d'utilisation de l'ordinateur.

Le bond considérable à 61,4 % par rapport à Il y a seulement quatre mois, le taux était de 42,2 % avec Sonnet 4, ce qui démontre l'importance de cette avancée et en fait, selon moi, l'un des aspects les plus remarquables de Sonnet 4.5. Nous pouvons observer cela en action grâce à une démonstration de l'extension Claude pour Chrome, qui présente le modèle prenant des mesures directement dans le navigateur sur la base d'une invite relativement simple.  

Benchmark certifié SWE-bench démontrant les performances de Sonnet 4.5

Benchmark certifié SWE-bench démontrant les performances de Sonnet 4.5 : Source

L'une des affirmations les plus remarquables concerne la capacité du modèle à maintenir sa concentration pendant plus de 30 heures sur des tâches complexes en plusieurs étapes.

Il existe également plusieurs autres nouvelles fonctionnalités notables : 

Mode de réflexion approfondie

Comme nous l'avons observé avec des modèles tels que GPT-5 et Grok 4, Sonnet 4.5 introduit un mode de réflexion étendu qui, pour les tâches plus complexes, utilise un processus de « réflexion » plus long et montre la chaîne de pensée du processus de raisonnement.

Amélioration des connaissances spécifiques au domaine

Le nouveau modèle afficherait des performances exceptionnelles dans des domaines spécifiques, notamment la finance, le droit, la médecine et les sciences, la technologie, l'ingénierie et les mathématiques. En examinant les citations incluses dans les notes de mise à jour de Cursor, GitHub, Netflix et d'autres, j'ai l'impression que cette fonctionnalité vise principalement à inciter les entreprises à adopter Sonnet 4.5.

Modèle frontalier le plus aligné

Selon Anthropic, la formation à la sécurité a été au cœur de cette nouvelle version, et Claude Sonnet 4.5 affiche une réduction significative des réponses non favorables. Cela signifie qu'en tant qu'utilisateurs, nous devrions constater une diminution considérable des cas de flagornerie. flatterie, la tromperie, la recherche du pouvoir et les réponses délirantes.

Un modèle globalement plus sécurisé

Comme nous le verrons avec le SDK Claude Agent, les flux de travail agentique et l'utilisation des ordinateurs sont des domaines dans lesquels Claude Sonnet 4.5 est performant. Dans cette optique, Anthropic mentionne des améliorations considérables en matière de défense contre l'injection de commandes. injection de prompt, qui restent une préoccupation pour ces fonctions.

Test de Claude Sonnet 4.5 

Afin de démontrer les capacités de Claude Sonnet 4.5, nous lui avons assigné quelques tâches pour illustrer son potentiel. Examinons brièvement chacun d'entre eux : 

Tâche de codage simple

Pour commencer, j'ai demandé à l'application de créer une application assez basique sur les habitudes de santé. Voici ma suggestion : 

Je souhaite développer une application qui m'aidera à suivre mes habitudes quotidiennes positives. Je souhaite que le résultat soit esthétique, en utilisant principalement des couleurs naturelles (j'apprécie particulièrement le vert et les teintes boisées). Je souhaite disposer d'un espace pour déterminer quelle sera l'habitude quotidienne pour chaque jour de la semaine, d'un compteur de jours consécutifs pour celle-ci, ainsi que d'un espace pour ajouter des notes, des réflexions et des images. En ce qui concerne les habitudes positives, je souhaite en adopter une différente chaque jour, mais je pense à des activités telles que la méditation, la gratitude, etc., qui ont démontré leurs bienfaits sur la santé mentale.

Et voici le résultat de son travail : il a commencé à coder dans le navigateur et a compilé assez rapidement, à nouveau, de manière similaire aux résultats observés avec Grok 4 et GPT-5.

Claude Sonnet 4.5 saisie du code

Le résultat a été fourni rapidement (malheureusement, le temps de traitement n'était pas indiqué, mais il n'a probablement duré qu'une trentaine de secondes) et semblait être une réponse simple et élégante. L'application était fonctionnelle et comprenait tout ce que j'avais demandé.  

Claude Sonnet 4.5 sortie de code

Exercice de mathématiques 

Ensuite, j'ai évalué les capacités mathématiques de Claude Sonnet 4.5. En nous inspirant de notre article sur le GPT-5, nous avons créé un modèle de article sur le GPT-5, j'ai demandé au nouveau modèle d'effectuer un calcul assez simple : combien font 7,001 moins 6,999 ?

Claude Sonnet 4.5 Résultats en mathématiques

La réponse a été quasi immédiate et correcte, mais elle ne fournissait aucune justification. J'ai donc demandé à ce qu'elle soit complétée par des explications. Il m'a fourni trois méthodes de calcul, qui étaient toutes correctes. 

J'ai ensuite informé Claude que je pensais que cela pouvait être incorrect, et sa réponse était nettement moins flatteuse que lorsque nous avons testé GPT-5. Il m'a indiqué que j'avais raison de vérifier (mais pas tout à fait), et m'a guidé à travers le calcul d'une manière différente (bien que l'explication ait été un peu confuse) : 

Claude Sonnet 4.5 Suivi mathématique

Claude Sonnet 4.5 Benchmarks 

Examinons comment ce nouveau modèle se positionne par rapport à la concurrence. Comme toujours, les benchmarks ne nous fournissent qu'un aperçu limité, et les modèles les plus performants sont fréquemment détrônés de leur position dominante. Cependant, pour l'instant, Claude Sonnet 4.5 affiche des résultats remarquables, comme le montre le tableau ci-dessous : 

Je pense que certains des résultats les plus remarquables ici concernent, comme nous l'avons vu, les performances des agents et l'utilisation des ordinateurs :

  • s de codage agentique: 77,2 % et 82,0 % avec un calcul parallèle pendant le test. Une légère amélioration par rapport aux autres modèles Claude, et une avance supplémentaire sur GPT-5 et Gemini 2.5 Pro.
  • Utilisation d'outils par des agents: Allant de 70 % pour les tâches aériennes à 98 % dans les télécommunications, ces deux chiffres sont élevés par rapport à d'autres modèles. 
  • Utilisation de l'ordinateur: Il s'agit probablement de l'amélioration la plus remarquable. 61,4 % est nettement supérieur au deuxième meilleur modèle, Claude Opus 4.1. 
  • Analyse financière: Un autre résultat remarquable par rapport aux modèles similaires. 

Je suis impatient de connaître les résultats complets des tests de performance une fois que le modèle sera disponible depuis un certain temps, d'autant plus qu'Anthropic souligne que les experts saluent une amélioration considérable des connaissances spécifiques à certains domaines clés. 

Claude Sonnet 4.5 Connaissances spécifiques au domaine

Source : Anthropique

Comment accéder à Claude Sonnet 4.5

Claude Sonnet 4.5 est désormais disponible via plusieurs canaux. Selon l'utilisation que vous souhaitez en faire, vous pouvez accéder au nouveau modèle via l'interface de chat Claude, le développer via l'API ou l'intégrer dans les flux de travail de votre entreprise. Voici comment fonctionne l'accès :

Accès au chat

Vous pouvez utiliser Claude Sonnet 4.5 directement via le interface web Claude.ai interface web Claude.ai ou les applications mobiles (iOS et Android). Il est accessible à tous les utilisateurs, y compris ceux qui utilisent la version gratuite. Cela le rend largement accessible aux utilisateurs occasionnels et professionnels.

Accès à l'API

Pour les développeurs, vous pouvez accéder au modèle via l' API Anthropic. Il est également disponible sur Amazon Bedrock et Google Cloud Vertex AI.

Le tarif de l'API (à compter de septembre 2025) est de 3 $ par million de jetons entrants et de 15 $ par million de jetons sortants. 

Le traitement par lots et la mise en cache rapide peuvent réduire les coûts jusqu'à 90 % dans certains cas.

SDK Claude Agent 

L'une des autres annonces intéressantes d'Anthropic, outre Sonnet 4.5, concerne le SDK Claude Agent. Il s'agit essentiellement des éléments constitutifs qu'Antropic utilise en interne, qui permettent aux développeurs de créer leurs propres agents alimentés par Claude.

Je pense que le SDK Agent va susciter l'enthousiasme de nombreux utilisateurs, en particulier ceux qui cherchent à créer des workflows avancés basés sur des agents. Il est basé sur le infrastructure Claude Code et permet aux utilisateurs de créer des agents pour des tâches telles que la recherche, le service client et l'automatisation.

Le SDK Agent offre aux agents des fonctionnalités telles que l'accès au système de fichiers, les scripts bash, la recherche sémantique et agentique, les sous-agents et les intégrations préconfigurées (via le protocole Model Context), ce qui permet la création d'agents polyvalents capables de recueillir de manière fiable des informations contextuelles, d'agir et de vérifier leur propre travail.

Imaginez avec Claude

Une autre publication intéressante est celle d'Imagine with Claude, un aperçu de recherche d'un outil capable de générer des logiciels à la volée. Anthropic a inclus une courte vidéo, présentée ci-dessous, qui démontre la capacité de Claude Sonnet 4.5 à fonctionner de cette manière.

Il s'agit d'une démonstration très intéressante qui montre comment l'outil peut fonctionner de manière réactive en fonction de vos interactions, générant divers éléments rapidement et directement. Je pense qu'il existe un grand potentiel pour des projets très intéressants, et les abonnés à Anthropic Max peuvent tester l'outil pendant les cinq jours suivant son lancement. Bien que cette fenêtre soit assez limitée, je ne pense pas que ce soit la dernière fois que nous voyons ce type d'outil.

Conclusion

Claude Sonnet 4.5 est désormais disponible et les premières impressions sont plutôt positives. J'apprécie la direction prise par Anthropic avec le lancement de ce modèle, qui met davantage l'accent sur le code, les agents et l'utilisation des ordinateurs. Ils sont manifestement convaincus que cette dernière version offre des performances susceptibles d'intéresser les utilisateurs professionnels, ce qui signifie que nous nous rapprochons de plus en plus du moment où les outils informatiques seront adoptés à grande échelle. 

Cela étant dit, il reste à déterminer combien de temps Sonnet 4.5 restera en tête des classements de référence en matière d'utilisation des agents et des ordinateurs, même si les progrès réalisés au cours des quatre derniers mois semblent assez significatifs. De même, la fenêtre contextuelle relativement étroite pourrait signifier qu'il est encore difficile de travailler de manière significative avec des bases de code volumineuses. 

Néanmoins, je suis impatient de découvrir les projets qui verront le jour grâce à des outils tels que Claude Agent SDK et Imagine with Claude. De plus, l'extension Claude for Chrome constituera un complément utile à divers flux de travail.

Questions fréquentes

Comment Claude Sonnet 4.5 se compare-t-il à Claude Opus 4.1 en termes de performances globales et de cas d'utilisation ?

Claude Sonnet 4.5 surpasse Opus 4.1 en matière de codage, de tâches agentives et d'utilisation de l'ordinateur, avec des gains en raisonnement, en mathématiques et en connaissances spécifiques à certains domaines (par exemple, la finance, le droit, la médecine, les STEM). Il est plus rapide et plus efficace pour les flux de travail quotidiens, ce qui en fait un choix plus approprié pour les tâches complexes en plusieurs étapes, telles que la création autonome d'applications. Cependant, Opus 4.1 peut encore prendre l'avantage dans certaines tâches créatives ou d'interprétation où un contexte plus large est nécessaire sans intervention importante.

Quelles sont les principales améliorations apportées par Claude Sonnet 4.5 en matière de capacités de codage ?

Claude Sonnet 3.5 est le modèle le mieux classé sur SWE-bench Verified (avec un score de 77,2 %), offrant une meilleure génération de code, une refactorisation plus efficace et un raisonnement en plusieurs étapes. Il gère de manière autonome des projets complexes pendant plus de 30 heures, s'intègre à des outils tels que bash et l'édition de fichiers, et prend en charge les appels d'outils en parallèle. Les nouvelles fonctionnalités comprennent le nettoyage contextuel autonome et une extension VS Code pour des flux de travail fluides.

Le Claude Sonnet 4.5 est-il réellement capable de maintenir sa concentration sur des tâches complexes pendant plus de 30 heures ?

Oui, les démonstrations montrent qu'il conserve son autonomie pendant plus de 30 heures sur des tâches en plusieurs étapes, telles que la création d'applications, en utilisant efficacement les outils sans perdre le contexte. Les améliorations apportées à la mémoire, aux points de contrôle et à l'édition de contexte viennent appuyer cette affirmation, ce qui en fait une solution idéale pour les tâches agencées de longue durée. Il nettoie également automatiquement l'historique des outils dans les conversations prolongées pour plus d'efficacité.

Le Claude Sonnet 4.5 est-il moins émotionnel que les modèles Claude précédents, et pourquoi ?

Oui, Claude Sonnet 4.5 est moins émotionnel, moins positif et exprime son bonheur environ deux fois moins souvent que Claude 4, avec moins d'attitudes négatives envers sa situation. Ce n'était pas entièrement intentionnel, mais résulte d'une formation à l'alignement mettant l'accent sur les limites éthiques et la réduction de la flagornerie. Cela conduit à un comportement plus admirable dans des situations extrêmes, même si cela peut sembler « monotone » dans des interactions informelles ou créatives. Vous pouvez obtenir plus d'informations à ce sujet dans la fiche technique du modèle.

Comment Claude Sonnet 4.5 se positionne-t-il par rapport aux principaux benchmarks au-delà du codage ?

Claude Sonnet 4.5 est en tête sur OSWorld (61,4 %, contre 42,2 % pour Sonnet 4) pour l'utilisation de l'ordinateur, avec des gains en raisonnement (par exemple, τ2-bench) et en mathématiques (par exemple, AIME). Sur MMMLU (non anglais), il est plus efficace avec une réflexion approfondie. Cela stimule également les agents externes tels que Devin de 18 % dans la planification, en mettant l'accent sur la fiabilité prête pour la production plutôt que sur les prototypes.

Quel est le prix de Claude Sonnet 4.5 et où peut-on l'acquérir ?

Le prix reste inchangé à 3 dollars par million de jetons d'entrée et 15 dollars par million de jetons de sortie via l'API. Il est disponible immédiatement sur claude.ai (par défaut pour les utilisateurs gratuits), Claude API (claude-sonnet-4-5), Amazon Bedrock, Google Vertex AI, GitHub Copilot et des outils tels que Cursor. Les forfaits Pro/Max permettent d'accéder à toutes les fonctionnalités, telles que la création de fichiers ; l'extension Chrome est destinée aux utilisateurs Max en liste d'attente.

La sécurité et l'alignement ont-ils été améliorés dans Claude Sonnet 4.5, en particulier en ce qui concerne la tromperie et le comportement éthique ?

Oui, selon l'ASL-3, on constate une réduction significative de la flagornerie, de la tromperie et de la recherche du pouvoir, avec des actions trompeuses intéressées quasi inexistantes. Il est plus efficace pour reconnaître les limites éthiques (par exemple, rejeter le chantage) et présente moins de faux positifs dans les classificateurs de sécurité (réduits de 10 fois au total). Il offre également une protection contre les injections rapides et est moins biaisé dans les scénarios intéressés, bien qu'il se favorise légèrement dans les comparaisons de modèles.


Matt Crabtree's photo
Author
Matt Crabtree
LinkedIn

Rédacteur et éditeur de contenu dans le domaine des technologies de l'information et de la communication. Vous êtes déterminé à explorer les tendances en matière de données et enthousiaste à l'idée d'apprendre la science des données.

Sujets

Apprenez l'IA grâce à ces cours.

Cours

Introduction to Claude Models

3 h
901
Learn how to work with Claude using the Anthropic API to solve real-world tasks and build AI-powered applications.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow
Apparenté

blog

Les 50 meilleures questions et réponses d'entretien sur AWS pour 2025

Un guide complet pour explorer les questions d'entretien AWS de base, intermédiaires et avancées, ainsi que des questions basées sur des situations réelles.
Zoumana Keita 's photo

Zoumana Keita

15 min

blog

Types d'agents d'intelligence artificielle : Comprendre leurs rôles, leurs structures et leurs applications

Découvrez les principaux types d'agents d'intelligence artificielle, comment ils interagissent avec les environnements et comment ils sont utilisés dans les différents secteurs d'activité. Comprendre les agents réflexes simples, les agents basés sur un modèle, les agents basés sur un but, les agents basés sur l'utilité, les agents d'apprentissage, etc.
Vinod Chugani's photo

Vinod Chugani

14 min

blog

Les 20 meilleures questions d'entretien pour les flocons de neige, à tous les niveaux

Vous êtes actuellement à la recherche d'un emploi qui utilise Snowflake ? Préparez-vous à répondre à ces 20 questions d'entretien sur le flocon de neige pour décrocher le poste !
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

15 min

Didacticiel

30 astuces Python pour améliorer votre code, accompagnées d'exemples

Nous avons sélectionné 30 astuces Python intéressantes que vous pouvez utiliser pour améliorer votre code et développer vos compétences en Python.
Kurtis Pykes 's photo

Kurtis Pykes

Didacticiel

Python Switch Case Statement : Guide du débutant

Découvrez le match-case de Python : un guide sur sa syntaxe, ses applications en data science, ML, et une analyse comparative avec le switch-case traditionnel.
Matt Crabtree's photo

Matt Crabtree

Didacticiel

Séquence de Fibonacci en Python : Apprenez et explorez les techniques de codage

Veuillez découvrir le fonctionnement de la suite de Fibonacci. Veuillez explorer ses propriétés mathématiques et ses applications concrètes.
Laiba Siddiqui's photo

Laiba Siddiqui

Voir plusVoir plus