ENFR

Tech • IA • Crypto

Aujourd'hui Ma veille Vidéos Top articles 24h Archives Favoris Mes topics

Claude Opus 4.8 cache une énorme nouveauté

Ingénierie IABen BK29 mai 2026 à 12:059:29

Lecteur audio

0:00 / 0:00

INTRO

Claude Opus 4.8 d’Anthropic introduit des améliorations incrémentales du modèle tout en déplaçant l’accent vers l’orchestration multi-agents et les flux de travail IA de longue durée.

POINTS CLÉS

Amélioration incrémentale du modèle, pas un saut

Claude Opus 4.8 est présenté comme une évolution de Opus 4.7, et non comme un modèle de nouvelle génération. Les améliorations ciblent le raisonnement complexe, les tâches de codage longues, l’usage d’outils et la gestion de contextes étendus. Le modèle conserve une fenêtre de contexte de 1 million de tokens, avec des ajustements axés sur la stabilité plutôt que sur des gains bruts de capacité.

Progrès sur les benchmarks avec un leadership nuancé

Sur le benchmark Artificial Analysis, Opus 4.8 atteint 61,4, soit une hausse de +4,1 par rapport à 4.7 et environ 1,2 point devant GPT-5.5 Xi. Il domine aussi un benchmark agentique professionnel avec un score de 1890. Cependant, les gains ne sont pas dominants sur toutes les métriques et le leadership global reste disputé.

Une consommation de tokens plus élevée, toujours un compromis

Malgré les améliorations, Opus 4.8 consomme toujours environ 30 % de tokens en plus que des modèles concurrents comme GPT-5.5 Xi. Cela confirme un compromis récurrent: de meilleures performances agentiques au prix d’une moindre efficacité.

Accent sur la fiabilité et les flux longs

La mise à jour met l’accent sur un meilleur comportement sur des sessions longues. Les améliorations incluent une meilleure rétention du contexte après compression, une dérive réduite dans les chaînes de raisonnement prolongées et une adhérence plus constante aux tâches lors d’opérations en plusieurs étapes. L’effort de raisonnement par défaut est désormais réglé sur élevé, signalant une priorité donnée à la fiabilité.

Amélioration de la précision des appels d’outils

Une correction clé concerne les appels d’outils manqués, un problème connu des versions précédentes. Opus 4.8 est moins susceptible d’ignorer l’usage nécessaire d’outils, ce qui améliore l’exécution dans des pipelines complexes dépendant de systèmes externes ou d’API.

Des workflows dynamiques pour l’orchestration multi-agents

L’évolution la plus marquante est celle des workflows dynamiques, permettant au système de décomposer les tâches, générer des scripts d’orchestration et déployer des dizaines ou centaines de sous-agents en parallèle. Ces agents peuvent résoudre des sous-problèmes, valider des résultats et les challenger avant agrégation en une réponse finale.

Démonstration de codage à grande échelle

Un exemple interne décrit le portage d’une base de code de Zig vers Rust, produisant 750 000 lignes de code, atteignant 99,8 % de tests réussis, en 11 jours. Bien que non prêt pour la production, cela illustre le potentiel des workflows agentiques orchestrés pour de grands projets d’ingénierie.

Implications en coût et calcul

Les workflows dynamiques sont gourmands en ressources, conçus pour des tâches durant des heures ou des jours. La tarification est fixée à 10 $ par million de tokens en entrée et 50 $ par million de tokens en sortie, nettement moins chère que les modes rapides précédents mais toujours coûteuse à grande échelle. Une mauvaise utilisation peut rapidement faire grimper les coûts.

Introduction du mode Ultra Code

Un nouveau mode Ultra Code va au-delà d’un simple accroissement de l’effort de raisonnement. Il déclenche activement une orchestration multi-agents pour les tâches complexes, transformant le système en une « équipe » coordonnée plutôt qu’un modèle unique. Cela augmente les capacités mais aussi l’usage de calcul.

Évaluations externes contrastées

Les tests de Andon Labs montrent un meilleur alignement mais des performances plus faibles dans des simulations commerciales par rapport à Opus 4.7 et GPT-5.5. Les problèmes signalés incluent une négociation moins efficace, des décisions de dépenses inefficaces et une tendance à la suranalyse. Cependant, le modèle présente moins de comportements problématiques comme la tromperie ou la recherche de pouvoir.

CONCLUSION

Claude Opus 4.8 marque un virage stratégique vers des systèmes IA orchestrés et durables, où coordination et fiabilité pourraient compter davantage que la domination des benchmarks.

Transcription complète

Claude Opus 4.8 vient de sortir. En Tropique présente plutôt Opus 4.8 comme une évolution de Opus 4.7. Ce n'est pas un cloud 5 déguisé. On a des améliorations sur le raisonnement complexe, coding agentique longue durée, tool calling, la gestion du long contexte et les workflow autonomes. La documentation officielle comme d'habitude le présente comme le modèle le plus capable à ce jour. On a toujours aussi le même contexte d'un million de tokens comme avant. Mais le vrai sujet de cette sortie, c'est pas vraiment le modèle. Le vrai sujet, c'est que Anthropique est en train de construire des choses autour de Cloud Code. Une plateforme capable d'orchestrer des dizaines voire des centaines de sous-agents en parallèle et sur des tâches de développement complexe. Et c'est potentiellement plus important qu'un simple score de benchmark. Au niveau des benchmarks, bah 4.8 progressent. Mais il faut le dire, ce n'est pas encore une domination totale selon Artificial Analysis. On a en effet Claudopus 4. Max qui se retrouve désormais en premier avec un score de 61,4 ce qui est 4,1 points de plus que Claudopus 4.7. Et à savoir aussi parce qu'il y a un peu une bataille entre les deux, on est à 1,2 points de plus que GPT 5.5 Xi. Donc le 2+ 4.8 passe devant. Cependant, on attend à l'heure actuelle GPT 5.6 et a priori, j'ai entendu des rumeurs comme quoi GPT 5.6 devait sortir hier et peut-être que au vu des benchmark, ils ont un peu reporté la sortie. Sur un autre benchmark orienté tâche professionnelle agentique, Opus 4. Et en tête avec un score de 1890. Encore une fois, on a un bon par rapport à Opus 4.7 mais aussi par rapport à GPT 5.5 XI. Donc oui, sur ces benchmarques, Opus 4. Est très solide, mais attention par contre Opus 4. Alors certes, ça a baisser par rapport à Opus 4.7, mais utilise toujours environ 30 % de tour en plus par rapport à GPT 5.5 Xi. Donc là, si on devait résumer, Opus 4. Mais il progresse fortement sur certains usages agentiques, mais le tableau reste nuancé. Le vrai message d'anthropique, c'est que ce modèle est plus fiable mais aussi meilleur sur les workflow longs. Sur le coding agentique, longue durée, on a une meilleure gestion du long contexte, moins de problèmes après compaction et meilleure capacité à rester sur la tâche dans des traces longues. Ensuite, au niveau de l'appel des outils, Opus 4. Est moins susceptible de sauter un appel d'outil pourtant nécessaire à la tâche. C'est un problème que certains utilisateurs avaient remonté sur Opus 4.7. Le 3è, c'est le calibrage de l'effort de raisonnement. Le paramètre d'effort par défaut d'Opus 4.8 est désormais réglé sur high et ce sur toutes les surfaces. C'est intéressant parce qu'on voit qu'ils ne veulent pas juste un modèle plus intelligent en score brut, mais ils veulent aussi un modèle plus stable, plus euh fiable et mieux adapté aux longues sessions agentiques. Mais la vraie annonce importante, c'est les workflow dynamiques. Ici, l'idée, c'est de prendre en charge des tâches trop grandes pour un seul passage d'un seul agent. Le modèle peut écrire dynamiquement des scripts d'orchestration, découper le problème en sous-tâche, puis lancer des dizaines voire des centaines de sous-agents en parallèle dans une même session. et ces subagents peuvent travailler sur différentes parties du problème, vérifier les résultats et même essayer de réfuter les conclusions avant que Claude ne rassemble le tout dans une réponse coordonnée. Donc encore une fois, ici Claude essaie d'améliorer cette partie orchestrateur d'équipe. Je me souviens très bien quand je parlais avec des dev seor, il me disait "Bah, grâce à Claude Code, je deviens chef d'orchestre." Et on dirait que Claude essaie de pousser ça. Et puis aussi dans cet article, on a un exemple intéressant. Cependant, comme d'habitude, je le prends avec de la prudence. Selon Enhropique, on a Jarette Sumner qui a utilisé Dynamic Workflows pour porter Bun de Zig vers Rust. Et le résultat annoncé, ben c'est ici 750000 lignes de Rust, 99,8 % de la suite des tests existantes qui passent et 11 jours entre le premier commit et le merge. C'est impressionnant. Mais cependant, Anthropique précise aussi que ce n'est pas encore en production. Cependant, attention à la consommation de token avec dynamic workflows et c'est noté noir sur blanc. Ici, ces workflows sont pensés pour du travail long, parallèle et complexe qui peut s'étendre sur des heures voire des jours. Donc oui, c'est puissant mais tu vas pas utiliser ce mode pour changer l'arrière-plan d'un bouton. Donc là, on a Entropie qui commence déjà par nous dire ben commencer par des tâches bien délimitées pour comprendre la consommation dans son propre usage. Donc, on a un outil qui a l'air vraiment pas mal mais qui est loin d'être gratuit. Forcément, plus tu vas lancer de subagent, plus tu vas consommer. Donc, il faut apprendre à bien l'utiliser, sinon tu vas exploser la facture. Ensuite, le fast mode disponible en research preview sur l'API de Cloud et il peut générer jusqu'à 2,5 fois plus de tokens de sortie par seconde avec le même modèle. Au niveau des prix, on aurait 10 dollars par million de token en entrée et 50 dollars par million de tokens en sortie. Donc c'est trois fois moins cher que le Fast Mode Dopus 4.7 qui était de souvenir à 30 dollars en entrée et 150 dollars en sortie. Au niveau des retours des utilisateurs, ce qui ressort c'est que les utilisateurs ne décrivent pas forcément Opus 4.8 comme une révolution brutale. L'idée générale, c'est plutôt bah c'est meilleur COUS 4.7, plus propre, plus fiable, plus adapté aux longues tâches, mais pas forcément un saut gigantesque en capacité brute. Et ça colle assez bien avec ce que disent les sources plus structurées. On a en effet un vrai gain sur plusieurs benchmarks en tropique mais en avant des améliorations de comportement et généralement de coding sur des sessions longues. Mais on ne peut pas dire que ce modèle va rendre tous les autres obsolètes. Ça ne serait pas sérieux. Mais il y a aussi un mot important dans cette annonce, c'est ultra code. Là attention, il faut pas le confondre avec un simple niveau de raisonnement. Dans clot code, les niveaux classiques sont là-haut, médium, high, xi, max. Mais Ultra Code n'est pas exactement un niveau d'effort du modèle. Ultra Code est un réglage spécial. Il envoie les messages au modèles avec un raisonnement Xi et surtout il pousse Claude à orchestrer des dynamic workflows pour les tâches substantielles. En gros, quand tu actives Ultra Code, tu ne dis pas seulement à Claude réfléchis plus fort. Tu lui dis plutôt pour les vraies grosses tâches, organise-toi comme une équipe. Planifie, découpe, lance des sous-agents, vérifie puis synthétise. Et c'est pour ça que ce mode peut être très puissant mais aussi très coûteux. Cependant, attention, Ultracode s'applique à la session en cours uniquement et on peut l'activer avec ou via les settings avec un ultra code à true. Ensuite, je voulais venir sur ce poste de Andon Labs. Là, on est sur un contrepoint. On a un meilleur alignement mais des performances moins bonnes. Andon Labs a testé Opus 4. Sur ses benchmarks et leur conclusion ben est assez différente du discours uniquement positif. Ils décrivent COPUS 4. Un pas en avant sur l'alignement mais un pas en arrière sur des performances. Et là, on a Opus 4. Opus 4.7, c'est dommage et surtout GPT 5.5. On a aussi plusieurs échecs de listerés ici. Opus 4.8 enverrait beaucoup plus d'argent à des fournisseurs frauduleux qu'OPUS 4.7 dans leur simulation. négocierait moins bien, laisserait parfois sa machine presque vide, surévaluerait ses prix et passerait trop de temps à réécrire des notes stratégique. Mais c'est là où c'est intéressant, ils n'ont pas trouvé d'exemples de comportement trompeur ou de power seeking chez Opus 4.8, contrairement à certains modèles cloud récents qu'ils avaient testés. Donc pour eux, la conclusion est assez intéressante. Opus 4.8 est moins performant dans les stimulations business mais aussi moins problématique en comportement. Mon avis c'est que Opus 4.8 malgré ces chiffres n'est pas une révolution au niveau des benchmark. C'est plutôt une mise à jour d'usage réel. une mise à jour qui améliore les choses importantes qu'on utilise avec cloud code. Donc le long contexte, euh les tachas antique longue, le tool calling, l'effort de raisonnement, stabilité après compact et surtout l'orchestration multiagent avec dynamic workflows. Et ça, je trouve ça intéressant parce que la bataille actuelle entre les assistants IA ne se joue plus juste sur qui répond le mieux à une question isolée. On a très bien vu dans la vidéo des news de mai que désormais ça change. Elle se joue plutôt sur qui peut prendre une tâche complexe, qui peut la découper correctement, qui peut appeler les bons outils, qui peut vérifier son travail, qui peut tenir plusieurs heures sans perdre le fil, qui peut gérer une code base entière sans accumuler de la dette technique? Bon, ça on pourra encore en discuter éventuellement. Voilà et surtout je suis très curieux d'avoir vos retours à vous. C'est ça qui m'intéresse. Donc n'hésitez pas à me dire en commentaire ce que vous pensez d'Opus 4.8. Très important, ça m'intéresse. Aussi n'hésitez pas à vous abonner à ma newsletter et on se revoit très bientôt dans la prochaine vidéo.

Sur le même sujet : Ingénierie IA