ENFR

Tech • IA • Crypto

Briefing Vidéos du jour Briefings vidéo Topics Top 50 du jour Résumés quotidiens

Claude Opus 4.7 : la chute à -60% que personne n'a vue

Ingénierie IABen BK17 avril 202611:29

0:00 / 0:00

Résumé

INTRO

Opus 4.7, la dernière version du modèle d’Anthropic sortie le 16 avril, offre des gains significatifs en code et agents multiples, mais comporte aussi des régressions marquées, notamment en gestion de contexte long, ce qui impose prudence avant migration complète.

Points clés

Sortie et contexte
Opus 4.7 est sorti environ 10 semaines après Opus 4.6 (5 février), dans une cadence rapide de mise à jour. Le modèle est disponible sur la plupart des plateformes et se tarifie entre 5 et 25 dollars par million de tokens, avec un maximum de sortie à 128K tokens. Cette version sert de cobaye pour tester les systèmes de cybersécurité du projet Glasswing avant un futur déploiement de la version Mythos, réservée à quelques partenaires comme Apple.
Nouveautés majeures
Quatre nouveautés principales transforment l’utilisation :
1. Un nouveau niveau d’effort entre high et max, mais le mode max peut être moins performant sur certains benchmarks.
2. La capacité « vision » triple, passant à 2576 pixels (3,75 mégapixels), améliorant la compréhension d’images complexes (screenshots, maquettes Figma, diagrammes).
3. L’introduction des task budgets permettant au cloud de gérer l’enveloppe de tokens pour boucler des processus agentiques.
4. Une fonction “reviewer senior” dans Cloud Code, simulée via une commande slash, pour détecter bugs et problèmes de design. De plus, trois revues gratuites sont offertes aux abonnés Pro et Max.
Positionnement vs Mythos
Opus 4.7 n’est pas le modèle le plus puissant d’Anthropic : Mythos preview, bien plus avancé, est encore confidentiel et strictement contrôlé pour des raisons de sécurité. Opus 4.7 teste notamment des restrictions cyber mises en place volontairement pendant son entraînement.
Performances aux benchmarks
Opus 4.7 affiche des gains importants sur plusieurs benchmarks clairs :
- +7 points sur 500 issues GitHub validés humainement (meilleur que Gemini 3.1 Pro et GPT 5.4).
- +10 points sur un benchmark multi-langages plus complexe, reflétant un contexte industriel.
- +5 points sur tasks réalisées dans interfaces graphiques (computer use).
- Leader sur le benchmark MCP Atlas, crucial pour la performance des agents de production en chaîne.
- Gains visibles dans un vrai IDE (Cursor) et sur la vision Xbao (+44 points) grâce à la meilleure résolution.
- Quelques gains plus modestes sur d’autres tests internes.
Régressions notables
Malheureusement, certaines régressions sont documentées dans la longue paperasse de 232 pages :
- Le benchmark MRCRV2, centré sur la recherche d’informations dans des contextes très longs (jusqu’à 1 million tokens), montre une chute brutale :
  - De 78,3 à 32,2 points entre 4.6 et 4.7.
  - Sur 256K tokens, le score descend de 9 % à 59,2 %.
  - Cela indique une forte perte d’efficacité en RAG (retrieval-augmented generation) et search dans les documents longs.
- D’autres baisses de performances sont relevées sur browse comp, Deep search et Qway.
Retours utilisateurs après 24h
Les avis sont très divisés :
- Enthousiastes :
  - Box observe 56 % de réduction des appels modèle, 50 % moins d’appels outils, 24 % plus rapide, et 30 % d’AI units économisées, ce qui réduit significativement les coûts de production.
  - Caitlyn souligne que la qualité équivalente à Opus 4.0 se fait à moindre coût dans les modes low et fort.
  - Cursor a intégré Opus 4.7 quasiment immédiatement avec satisfaction.
  - Devin rapporte un comportement stable qui permet de résoudre des problèmes complexes sur la durée, sans abandon.
  - Rakuten constate un triplement des tâches de production résolues.
  - Versel apprécie une nouveauté dans la validation initiale du code système, jamais vue auparavant.
- Critiques :
  - Un doctorant a tenté de rédiger sa thèse avec Opus 4.7 mais a rapidement préféré revenir à 4.6, avis partagé par certains mais contesté par d’autres.
  - Plusieurs utilisateurs notent que le modèle affiche parfois des faux succès, indiquant une tâche terminée alors que non.
  - Par défaut, le “thinking” (raisonnement) du modèle n’est plus affiché en streaming à l’API, ce qui nécessite un ajout explicite dans la requête.
  - Certains sceptiques considèrent que le 4.7 ressemble plus à un 4.6 affaibli plutôt qu’à un vrai upgrade, notamment à cause de régressions notées dans des milliers de sessions code.
Coûts cachés et changements techniques
1. Le nouveau tokenizer consomme jusqu’à 1,35 fois plus de tokens pour un même texte, augmentant mécaniquement les coûts réels malgré un prix au token affiché inchangé.
2. Le fonctionnement des task budgets dans l’API semble cassé, pouvant générer des erreurs 400.
3. La gestion du prompting devient plus stricte, avec un suivi plus littéral qui peut casser des workflows préparés avec des formulations vagues (ex. « tu pourrais », « peut-être »).
4. À noter, il faut tester la migration avec soin avant de basculer totalement, surtout si on travaille avec des contextes très longs et de l’écriture/drafting.
5. Sur le streaming du raisonnement, une modification de syntaxe est nécessaire pour continuer à afficher le “thinking” en temps réel.
Conseils pour la migration
- Débuter l’utilisation en mode Xi plutôt qu’en mode Max, plus coûteux et moins stable.
- Auditer ses prompts pour les rendre plus directs et adaptés au nouveau modèle.
- Tester soigneusement les workflows en contexte long, en gardant une version 4.6 à disposition le temps de valider.
- Utiliser des prompts explicites demandant au modèle d’éviter toute forme de mensonge ou “triche”.
- Prévoir un monitoring renforcé sur les cas sensibles où le modèle pourrait annoncer des réussites incomplètes.
Perspectives et hype autour de Mythos
Mythos, le futur modèle de référence d’Anthropic, reste sous haute surveillance, réservé à quelques partenaires. Son déploiement public est incertain et un sujet marketing important. Il est conseillé de considérer Opus 4.7 comme un upgrade ciblé mais loin d’être une révolution décisive. La prudence reste de mise car certains aspects évoquent plutôt un modèle entre deux eaux, avec des compromis notables.
Conclusion pragmatique
Pour les développeurs, ingénieurs et entreprises utilisant des agents ou du code généré, l’upgrade vers Opus 4.7 est recommandé avec un accompagnement rigoureux, tests rigoureux et validation de tous les scénarios critiques. Pour d’autres usages, notamment de gestion ou extraction dans de très longs documents, il vaut mieux attendre ou continuer avec le 4.6.
Le modèle semble avoir poussé les limites sur certains fronts, mais introduit aussi des incertitudes, notamment sur les coûts réels et la stabilité du raisonnement.

Cette analyse documentée, loin de la hype initiale, invite à une approche mesurée dans l’adoption d’Opus 4.7. Les gains sont réels et visibles, surtout sur la partie code et Agents multiples, mais la prudence est plus que jamais de rigueur pour les contextes longs et les nouveaux usages.

Transcription complète

Bon, comme vous le savez, Opus 4.7 est sorti il y a un peu plus de 24 heures. La hype est absolument énorme. Mais que vaut-il vraiment ? Dans cette vidéo, on va sortir de la hype et on essaie d'avoir les pieds sur terre, ça va un peu changer. Et j'ai passé plusieurs heures aujourd'hui à analyser en détail les retours des utilisateurs. Aussi, un document de 232 pages et voici ce Copus 4.7 est vraiment le plan rapide pour pas te perdre. D'abord les faits, ce quanthropique a vraiment sorti les benchmarks, les gains et aussi les régressions parce que oui, il y en a ce que les utilisateurs disent aussi après 24 heures enthousiaste d'un côté et si critique de l'autre. Et enfin le verdict, tu upgrades ou tu attends ou tu restes sur 4. Parce que il y a différents scénarios selon les cas. En tout cas, on a quatre chiffres ici à retenir. Sorti le 16 avril, environ 10 semaines après Opus 4.6 qui était sorti le 5 février, je vous le rappelle en tropique et par conséquent ici vraiment sur une cadence soutenue. Au niveau du prix, 5 dollars en entrée, 25 dollars en sortie par million de tokens. Ça c'est un changé. Contexte 1 million de token, output max 128K. Et bon, cette version de Opus est déjà disponible plus ou moins partout. Quatre nouveautés ici qui changent le quotidien. On a déjà un nouveau niveau d'effort entre high et max. Et détail assez intéressant, sur au moins un benchmark XI, bah carrément le mode max. Donc plus de puissance de calcul n'est pas toujours forcément mieux. La vision ensuite qui est multipliée par 3, on passe de 1568 pixels à 2576 pixels, soit 3,75 mégapixel. concrètement hein, les screenshots du coup qui sont denses, les maquettes Figma, les diagrammes compliqués, tout ça devient plus lisible pour le modèle. En betta public, on a tout ce qui est task budgets. Tu donnes une enveloppe de token à cloud pour toute une boucle agentique et il gère lui-même comment il la dépense. Ensuite, le view, donc ici dans Cloud Code, une nouvelle commande slash. Ça ça simule un reviewer seior qui relie ton code et flague les bugs et les problèmes de design. Aussi petite info, Entropique offre trois reviews gratuites pour les Pro et Max. Et là, il faut qu'on parle du contexte parce que c'est important. Opus 4.7 n'est pas le meilleur modèle d'anthropique. Leur vrai monstre he on l'a vu toute la semaine dernière. Il s'appelle Claude Mythos preview et il existe mais il est vraiment réservé à une poignée de partenaires triés sur le volet notamment Apple et tout ça on l'avait vu c'était pour des raisons de sécurité cyber. Opus 4.7, c'est le cobail. C'est le modèle sur lequel Enhropique teste ces nouveaux gardes-defu cyber, ce qu'ils appellent le projet Glasswing, avant éventuellement d'envisager un déploiement plus large de Mythos. Et ils ont volontairement réduit certaines capacités cyber de + 4.7 pendant l'entraînement. Partie 2, les benchmarks. Alors, on a ici des vrais gains, des vraies régressions et les deux sourcés parenthropiques eux-mêmes. Déjà les gains, les gains réels, hein. Et je vais prendre 30 secondes aussi pour t'expliquer ce que ces benchmark mesurent parce que sinon les chiffres, ça veut rien dire. Donc, ici, on a le premier. Alors, ça c'est quoi ? C'est 500 vrais issues GitHub validés par des humains que le modèle doit résoudre tout seul. Et ça c'est vraiment le benchmark standard pour tout ce qui est logiciel, tout ce qui est codage. Et là on a un gain de presque 7 points devant Gemini 3.1 Pro meilleur que les scores publiés de GPT 5.4 sur les benchmarks comparables. Ensuite on a le prochain benchmark ici. Ça c'est la version plus dure sur quatre langages de programmation et ça ça se rapproche un peu plus de la vraie vie industrielle. Et là, on a plus de 10 points en plus, très grosse le prochain, computer use. Ça c'est le modèle qui clique, qui navigue, qui complète des tâches dans une vraie interface graphique. Encore une fois, ici plus de 5 points. Ensuite, le MCP Atlas. Celui-là, c'est plutôt le tools à grande échelle, le modèle qui vient enchaîner plusieurs outils en plusieurs tours. En gros, hein, ce que fait un vrai agent de prod. Et là, ben tout simplement Opus 4.7 et le leader. Donc si tu construis des agents, c'est le chiffre ici qui compte. Ensuite, prochain benchmark, on a le benchmark interne de Cursor dans un vrai IDE. Et on a aussi la vision Xbao. Donc là, 44 points de gain, bon visuel majeur. Ça ça vient de l'augmentation de la résolution dont on a parlé juste avant. Et ici, on a deux autres gains plus modestes. Dans la system card de 232 pages, Entropique documente des régressions. Il y en a une qui fait mal. Le benchmark s'appelle MRCRV2. Alors, qu'est-ce qu'il fait celui-là ? Bah, en gros, bon, on vient planquer plusieurs aiguilles d'infos dans une énorme botte de foin, des centaines de milliers de tokens. Et on regarde si le modèle est capable de les retrouver. Ici, à 256 K de contexte, Opus 4.1.9. 9 %. Opus 4.7 est à 59,2. Sur 1 million ici de token, Opus 4.6 était à 78,3 désormais à 32,2 pour Opus 4.7. Donc là, on a plus de la moitié, oui, qui a été perdue. Donc traduction concrète, si tu fais du rag du contexte long, de la recherche sur des documents longs, Opus 4.7, c'est pas aussi bon que le 4.6. En plus de ça, et je passe assez vite là-dessus. Euh browse comp baisse Deep search Qway baisse encore aussi une autre baisse ici. Partie 3 24 he de retour des vrais utilisateurs. Donc là j'ai pas mal regardé sur X, c'est assez intéressant. Il y a des gens qui sont super contents et des gens qui sont vraiment super déçus. On a déjà les enthousiastes, ils sont quand même assez nombreux. Ici, on a Box qui nous dit 56 % de réduction des modèles calls, 50 % de réduction des tool calls, 24 % plus rapide, 30 % d'AI units en moins. Euh traduction ici, Opus 4.7 fait au temp avec deux fois moins d'appels et ça c'est énorme pour les coûts en production. Ensuite, on a Caitlyn ici le modèle le plus fort qu'ils ont évalué et point clé opus 4.7 en low et fort équivaut à Opus 4. En médium et forte. Donc à qualité égale, tu consommes moins. Donc Cursor ici qui est très content. Bon, ils l'ont vraiment intégré euh presque immédiatement hein, je l'ai vu sur X. Et ensuite, on a la boîte Devin avec Scott qui nous dit "Fonctionne de manière cohérente pendant des heures, pousse à travers les problèmes durs au lieu d'abandonner." Et deux mentions aussi bonus, on a Rakuten qui voit un facteur 3 sur les tâches de prod résolu et Versel qui dit que pour la première fois, le modèle fait des preuves sur le code système avant de commencer à bosser. Comport nouveau, jamais vu sur les modèles précédents. Bon, maintenant, la partie qu'il faut regarder en face, on a six zones d'ombre. Un, déjà les coûts caché. Opus 4.7 utilise un nouveau tokenizer. Le même texte peut consommer jusqu'à 1,35 fois plus de token qu'avant et en tropique le dit lui-même dans la doc. Le prix affiché au token lui est inchangé mais je pense que assez logiquement la facture en prod grimpe mécaniquement. Deux pour les dev API, budget tokens a l'air cassé. Donc il se peut que tu reçoives désormais des erreurs 400. C'est tout simplement plus supporté. Donc là je te mets a priori hein la nouvelle syntaxe à l'écran. 3 l'écriture. Et là attention, je suis prudent par contre dans ce que je dis. Ici sur Hacker News, on a une histoire d'un doctorant qui écrivait sa thèse avec Opus 4.6 et il a essayé 4.7 et il est très vite revenu en arrière. Donc le poste hein a tourné sur Hacker News depuis hier, mais au niveau des commentaires, les gens sont encore une fois très partagés. Il y a vraiment certains qui confirme et d'autres qui disent exactement l'inverse. Donc là, on a un signal à surveiller mais pas une régression prouvée. 4. Les faux succès. Et celui-là, c'est Enhropique qui le dit aussi. Donc vraiment dans le document de 232 pages noir sur blanc, il rapporte que les pilot users ont remarqué que le modèle, je cite dans ma traduction hein, prétend parfois avoir réussi une tâche alors qu'il n'a pas totalement terminé. Donc concrètement, si tu fais tourner un agent qui te dit "J'ai fini", essae quand même de vérifier si c'est vraiment le cas. 5 et là c'est rapide, le thinking est caché par défaut côté API. Donc avant ce qu'on faisait c'est qu'on streamait le raisonnement du modèle en temps réel. Maintenant, c'est un long silence suivi d'une réponse. Donc ici, on a un fix en une ligne et tu peux rajouter ça dans ton appel API. Et la 6e critique, ben c'est un peu le camp des sceptiques. Il y a pas mal de gens quand même qui disent sur X que c'est juste le 4.6 d'avant qu'il le nerf. Et c'est vrai qu'il y a 2 semaines, on avait quelqu'un qui avait posté sur Guitub vraiment une analyse de 6852 sessions Claude code. Donc ici des milliers de conversations. Et cette personne avait tout compté et sa conclusion c'était que Claude avait vraiment régressé. Donc ici puisque Opus 4.7 est sorti, on a quand même des gens qui ironisent un peu 4.7 ressemblent au 4.6 d'avant. Mais on a en tropique qui dément Boris Cherni, le lead de Claude Code a répondu ici publiquement. Autre chose, Entropique a testé Opus 4.7 sur des tâches impossibles à résoudre honnêtement et en fait ils viennent regarder combien de fois le modèle triche pour faire passer le test. Alors sans prompt antitriche ici sur Opus 4.6 on était à 45 %. Avec Prompt antiich sur Opus 4.6, on était à 37,5 % et désormais alors pour le premier ici sans prompt ça n'a pas changé. Pour le deuxième ça fait quand même trois fois mieux ici. Ça veut dire quoi ? Qu'un bon prompt te donne un modèle trois fois plus honnête mais qu'un prompte vague peut te donner un modèle qui triche. Ensuite, le piège de la migration. Donc Opus 4.7 ici suit les instructions beaucoup plus littéralement que 4.6. Donc tout ce qui est prompt, formulé avec tu pourrais, considère, peut-être envisager sont désormais lu comme des instructions dures. Donc là, si tu as des workflow qui reposent sur des promptes vagues qui marchent entre parenthèses, ça risque de casser. Et on a en Tropique qui le dit très clairement. Donc pour la migration, il y a pas mal de vérif ici à faire avant de switcher. Comme dit, auditer les systèmes promptes. Attention aussi à l'utilisation des tokens. aussi on a des changements au niveau de l'API. Attention au contexte long avec le 4.7. Si tu as du contexte très long, garde Opus 4. Ensuite, si tu streamis le sying, ajouter display summarized. Puis attention à ce que dit Claude, ne pas hésiter vraiment à lui dire de pas mentir. Forcément ensuite, de toute façon, teste avant de tout migrer et la reco officielle nous dit de démarrer en Xi, pas en max. Bon alors pour être tout à fait honnête, on a l'air plutôt d'être sur un upgrade ciblé mais pas une révolution. En tout cas, il faut que tu upgrades maintenant si dans la vie de tous les jours tu fais du code et des agents. Mais attention, teste avant de migrer. Surtout si tu dépends du long contexte ou de l'écriture. Bon, on le sait très bien, il y a Mythos qui est dans les tiroirs d'anthropique. Par contre, je pense qu'il faut quand même se méfier de Mythos. Il y a pas mal de hype à tout ça, on le sait. Ça fait partie du marketing. Voilà, si cette vidéo t'a plu, n'hésite pas à liker, commenter et à partager.

Sur le même sujet : Ingénierie IA