ENFR

Tech • IA • Crypto

Today My briefing Videos Top articles 24h Archives Favorites My topics

Claude Opus 4.8 hides a major new feature

AI Eng.Ben BKMay 29, 2026 at 12:05 PM9:29

Audio player

0:00 / 0:00

TL;DR

Anthropic’s Claude Opus 4.8 introduces incremental model gains but shifts focus to multi-agent orchestration and long-running AI workflows.

KEY POINTS

Incremental Model Upgrade, Not a Leap

Claude Opus 4.8 is positioned as an evolution of Opus 4.7, not a new generation model. Improvements target complex reasoning, long-duration coding tasks, tool use, and handling extended context. The model retains a 1 million token context window, with refinements aimed at stability rather than raw capability jumps.

Benchmark Gains With Nuanced Leadership

On the Artificial Analysis benchmark, Opus 4.8 reaches 61.4, a +4.1 increase over 4.7 and about 1.2 points ahead of GPT-5.5 Xi. It also leads a professional agentic benchmark with a score of 1890. However, gains are not dominant across all metrics, and overall performance leadership remains contested.

Higher Token Usage Remains a Tradeoff

Despite improvements, Opus 4.8 still consumes roughly 30% more tokens than competing models like GPT-5.5 Xi. This reinforces a recurring tradeoff: stronger agentic performance at the cost of efficiency.

Focus on Reliability and Long Workflows

The update emphasizes better behavior over long sessions. Enhancements include improved context retention after compression, reduced drift in extended reasoning traces, and more consistent task adherence during multi-step operations. The default reasoning effort is now set to high, signaling a bias toward reliability.

Improved Tool Calling Accuracy

A key fix addresses missed tool calls, a known issue in earlier versions. Opus 4.8 is less likely to skip necessary tool usage, improving execution in complex pipelines that depend on external systems or APIs.

Dynamic Workflows Enable Multi-Agent Orchestration

The most significant development is dynamic workflows, allowing the system to break down tasks, generate orchestration scripts, and deploy dozens or hundreds of sub-agents in parallel. These agents can independently solve subproblems, validate outputs, and challenge results before aggregation into a final answer.

Large-Scale Coding Demonstration

An internal example describes porting a codebase from Zig to Rust, producing 750,000 lines of code, achieving 99.8% test pass rate, and completing in 11 days. While not production-ready, it illustrates the potential of orchestrated agent workflows for large engineering tasks.

Cost and Compute Implications

Dynamic workflows are resource-intensive, designed for tasks lasting hours or days. Pricing is set at $10 per million input tokens and $50 per million output tokens, significantly cheaper than prior fast modes but still costly at scale. Misuse can quickly escalate expenses.

Introduction of Ultra Code Mode

A new Ultra Code setting goes beyond increasing reasoning effort. It actively triggers multi-agent orchestration for complex tasks, effectively turning the system into a coordinated “team” rather than a single model. This boosts capability but further increases compute usage.

Mixed External Evaluations

Testing by Andon Labs found improved alignment but weaker performance in business simulations compared to Opus 4.7 and GPT-5.5. Reported issues include poorer negotiation, inefficient spending decisions, and over-analysis. However, the model showed fewer problematic behaviors such as deception or power-seeking.

CONCLUSION

Claude Opus 4.8 signals a strategic shift from raw model intelligence toward orchestrated, long-running AI systems, where coordination and reliability may matter more than benchmark dominance.

Full transcript

Claude Opus 4.8 vient de sortir. En Tropique présente plutôt Opus 4.8 comme une évolution de Opus 4.7. Ce n'est pas un cloud 5 déguisé. On a des améliorations sur le raisonnement complexe, coding agentique longue durée, tool calling, la gestion du long contexte et les workflow autonomes. La documentation officielle comme d'habitude le présente comme le modèle le plus capable à ce jour. On a toujours aussi le même contexte d'un million de tokens comme avant. Mais le vrai sujet de cette sortie, c'est pas vraiment le modèle. Le vrai sujet, c'est que Anthropique est en train de construire des choses autour de Cloud Code. Une plateforme capable d'orchestrer des dizaines voire des centaines de sous-agents en parallèle et sur des tâches de développement complexe. Et c'est potentiellement plus important qu'un simple score de benchmark. Au niveau des benchmarks, bah 4.8 progressent. Mais il faut le dire, ce n'est pas encore une domination totale selon Artificial Analysis. On a en effet Claudopus 4. Max qui se retrouve désormais en premier avec un score de 61,4 ce qui est 4,1 points de plus que Claudopus 4.7. Et à savoir aussi parce qu'il y a un peu une bataille entre les deux, on est à 1,2 points de plus que GPT 5.5 Xi. Donc le 2+ 4.8 passe devant. Cependant, on attend à l'heure actuelle GPT 5.6 et a priori, j'ai entendu des rumeurs comme quoi GPT 5.6 devait sortir hier et peut-être que au vu des benchmark, ils ont un peu reporté la sortie. Sur un autre benchmark orienté tâche professionnelle agentique, Opus 4. Et en tête avec un score de 1890. Encore une fois, on a un bon par rapport à Opus 4.7 mais aussi par rapport à GPT 5.5 XI. Donc oui, sur ces benchmarques, Opus 4. Est très solide, mais attention par contre Opus 4. Alors certes, ça a baisser par rapport à Opus 4.7, mais utilise toujours environ 30 % de tour en plus par rapport à GPT 5.5 Xi. Donc là, si on devait résumer, Opus 4. Mais il progresse fortement sur certains usages agentiques, mais le tableau reste nuancé. Le vrai message d'anthropique, c'est que ce modèle est plus fiable mais aussi meilleur sur les workflow longs. Sur le coding agentique, longue durée, on a une meilleure gestion du long contexte, moins de problèmes après compaction et meilleure capacité à rester sur la tâche dans des traces longues. Ensuite, au niveau de l'appel des outils, Opus 4. Est moins susceptible de sauter un appel d'outil pourtant nécessaire à la tâche. C'est un problème que certains utilisateurs avaient remonté sur Opus 4.7. Le 3è, c'est le calibrage de l'effort de raisonnement. Le paramètre d'effort par défaut d'Opus 4.8 est désormais réglé sur high et ce sur toutes les surfaces. C'est intéressant parce qu'on voit qu'ils ne veulent pas juste un modèle plus intelligent en score brut, mais ils veulent aussi un modèle plus stable, plus euh fiable et mieux adapté aux longues sessions agentiques. Mais la vraie annonce importante, c'est les workflow dynamiques. Ici, l'idée, c'est de prendre en charge des tâches trop grandes pour un seul passage d'un seul agent. Le modèle peut écrire dynamiquement des scripts d'orchestration, découper le problème en sous-tâche, puis lancer des dizaines voire des centaines de sous-agents en parallèle dans une même session. et ces subagents peuvent travailler sur différentes parties du problème, vérifier les résultats et même essayer de réfuter les conclusions avant que Claude ne rassemble le tout dans une réponse coordonnée. Donc encore une fois, ici Claude essaie d'améliorer cette partie orchestrateur d'équipe. Je me souviens très bien quand je parlais avec des dev seor, il me disait "Bah, grâce à Claude Code, je deviens chef d'orchestre." Et on dirait que Claude essaie de pousser ça. Et puis aussi dans cet article, on a un exemple intéressant. Cependant, comme d'habitude, je le prends avec de la prudence. Selon Enhropique, on a Jarette Sumner qui a utilisé Dynamic Workflows pour porter Bun de Zig vers Rust. Et le résultat annoncé, ben c'est ici 750000 lignes de Rust, 99,8 % de la suite des tests existantes qui passent et 11 jours entre le premier commit et le merge. C'est impressionnant. Mais cependant, Anthropique précise aussi que ce n'est pas encore en production. Cependant, attention à la consommation de token avec dynamic workflows et c'est noté noir sur blanc. Ici, ces workflows sont pensés pour du travail long, parallèle et complexe qui peut s'étendre sur des heures voire des jours. Donc oui, c'est puissant mais tu vas pas utiliser ce mode pour changer l'arrière-plan d'un bouton. Donc là, on a Entropie qui commence déjà par nous dire ben commencer par des tâches bien délimitées pour comprendre la consommation dans son propre usage. Donc, on a un outil qui a l'air vraiment pas mal mais qui est loin d'être gratuit. Forcément, plus tu vas lancer de subagent, plus tu vas consommer. Donc, il faut apprendre à bien l'utiliser, sinon tu vas exploser la facture. Ensuite, le fast mode disponible en research preview sur l'API de Cloud et il peut générer jusqu'à 2,5 fois plus de tokens de sortie par seconde avec le même modèle. Au niveau des prix, on aurait 10 dollars par million de token en entrée et 50 dollars par million de tokens en sortie. Donc c'est trois fois moins cher que le Fast Mode Dopus 4.7 qui était de souvenir à 30 dollars en entrée et 150 dollars en sortie. Au niveau des retours des utilisateurs, ce qui ressort c'est que les utilisateurs ne décrivent pas forcément Opus 4.8 comme une révolution brutale. L'idée générale, c'est plutôt bah c'est meilleur COUS 4.7, plus propre, plus fiable, plus adapté aux longues tâches, mais pas forcément un saut gigantesque en capacité brute. Et ça colle assez bien avec ce que disent les sources plus structurées. On a en effet un vrai gain sur plusieurs benchmarks en tropique mais en avant des améliorations de comportement et généralement de coding sur des sessions longues. Mais on ne peut pas dire que ce modèle va rendre tous les autres obsolètes. Ça ne serait pas sérieux. Mais il y a aussi un mot important dans cette annonce, c'est ultra code. Là attention, il faut pas le confondre avec un simple niveau de raisonnement. Dans clot code, les niveaux classiques sont là-haut, médium, high, xi, max. Mais Ultra Code n'est pas exactement un niveau d'effort du modèle. Ultra Code est un réglage spécial. Il envoie les messages au modèles avec un raisonnement Xi et surtout il pousse Claude à orchestrer des dynamic workflows pour les tâches substantielles. En gros, quand tu actives Ultra Code, tu ne dis pas seulement à Claude réfléchis plus fort. Tu lui dis plutôt pour les vraies grosses tâches, organise-toi comme une équipe. Planifie, découpe, lance des sous-agents, vérifie puis synthétise. Et c'est pour ça que ce mode peut être très puissant mais aussi très coûteux. Cependant, attention, Ultracode s'applique à la session en cours uniquement et on peut l'activer avec ou via les settings avec un ultra code à true. Ensuite, je voulais venir sur ce poste de Andon Labs. Là, on est sur un contrepoint. On a un meilleur alignement mais des performances moins bonnes. Andon Labs a testé Opus 4. Sur ses benchmarks et leur conclusion ben est assez différente du discours uniquement positif. Ils décrivent COPUS 4. Un pas en avant sur l'alignement mais un pas en arrière sur des performances. Et là, on a Opus 4. Opus 4.7, c'est dommage et surtout GPT 5.5. On a aussi plusieurs échecs de listerés ici. Opus 4.8 enverrait beaucoup plus d'argent à des fournisseurs frauduleux qu'OPUS 4.7 dans leur simulation. négocierait moins bien, laisserait parfois sa machine presque vide, surévaluerait ses prix et passerait trop de temps à réécrire des notes stratégique. Mais c'est là où c'est intéressant, ils n'ont pas trouvé d'exemples de comportement trompeur ou de power seeking chez Opus 4.8, contrairement à certains modèles cloud récents qu'ils avaient testés. Donc pour eux, la conclusion est assez intéressante. Opus 4.8 est moins performant dans les stimulations business mais aussi moins problématique en comportement. Mon avis c'est que Opus 4.8 malgré ces chiffres n'est pas une révolution au niveau des benchmark. C'est plutôt une mise à jour d'usage réel. une mise à jour qui améliore les choses importantes qu'on utilise avec cloud code. Donc le long contexte, euh les tachas antique longue, le tool calling, l'effort de raisonnement, stabilité après compact et surtout l'orchestration multiagent avec dynamic workflows. Et ça, je trouve ça intéressant parce que la bataille actuelle entre les assistants IA ne se joue plus juste sur qui répond le mieux à une question isolée. On a très bien vu dans la vidéo des news de mai que désormais ça change. Elle se joue plutôt sur qui peut prendre une tâche complexe, qui peut la découper correctement, qui peut appeler les bons outils, qui peut vérifier son travail, qui peut tenir plusieurs heures sans perdre le fil, qui peut gérer une code base entière sans accumuler de la dette technique? Bon, ça on pourra encore en discuter éventuellement. Voilà et surtout je suis très curieux d'avoir vos retours à vous. C'est ça qui m'intéresse. Donc n'hésitez pas à me dire en commentaire ce que vous pensez d'Opus 4.8. Très important, ça m'intéresse. Aussi n'hésitez pas à vous abonner à ma newsletter et on se revoit très bientôt dans la prochaine vidéo.

More from AI Eng.