ENFR
8news

Tech • IA • Crypto

Aujourd'huiVeilleVidéosTop 24hCryptoArchivesFavorisTopics

Le levier de la pensée

8/10
AnthropicClaude8 mai 2026 à 18:5023:45
Lecteur audio
0:00 / 0:00

INTRO

Anthropic souligne que l’augmentation du « compute au moment de l’inférence » via des contrôles d’effort et un raisonnement adaptatif améliore fortement les performances de l’IA sur des tâches complexes, tout en introduisant de nouveaux compromis de coût et de latence.

POINTS CLÉS

Le compute à l’inférence devient une méthode clé de mise à l’échelle

Les progrès des grands modèles de langage reposent de plus en plus non seulement sur la taille d’entraînement, mais aussi sur le compute à l’inférence, où les modèles passent plus de temps à raisonner lors de l’exécution. Un compute plus élevé à ce stade améliore les performances dans des domaines comme le génie logiciel, le raisonnement académique et la recherche agentique. Les résultats montrent une corrélation directe entre temps d’inférence accru et meilleurs résultats.

Des gains de performance démontrés avec la montée en effort

Des expériences avec Claude Opus 4.7 montrent qu’augmenter le niveau d’effort améliore mesurablement les résultats. Un mode faible effort a produit une simulation de trafic basique en environ 50 secondes avec 4 600 tokens, tandis qu’un effort plus élevé a doublé temps et tokens, mais avec un comportement plus réaliste. À effort maximal, le système a utilisé environ 10× plus de compute, générant des graphismes nettement améliorés et des dynamiques de conduite complexes.

Trois types de tokens pilotent le comportement de l’IA

Le système répartit le compute entre trois catégories: tokens de réflexion pour le raisonnement interne, tokens d’appel d’outils pour interagir avec des systèmes externes, et tokens de texte pour communiquer avec l’utilisateur. Ensemble, ils déterminent comment le modèle planifie, agit et répond. Bien gérer ces tokens est essentiel pour optimiser performance et expérience utilisateur.

Le raisonnement adaptatif remplace les pipelines rigides

Les nouvelles capacités de réflexion adaptative permettent aux modèles de décider dynamiquement quand et combien raisonner, plutôt que de suivre des séquences fixes. Cela remplace les approches où le raisonnement n’avait lieu qu’au début ou entre appels d’outils. Le résultat est un comportement plus flexible, mêlant en temps réel raisonnement, usage d’outils et communication selon la complexité.

Les contrôles d’effort équilibrent coût, vitesse et qualité

Les utilisateurs peuvent influencer les résultats via un réglage d’effort, qui ajuste le compute alloué. Un effort élevé améliore généralement les résultats mais augmente latence et coût, tandis qu’un effort faible privilégie rapidité et efficacité. Une fonction complémentaire, les budgets de tâche, fixe des limites strictes sur les tokens, le temps ou le coût.

Des rendements décroissants à haut niveau de compute

Bien que l’effort accru améliore les performances, les gains ne sont pas toujours linéaires. Les évaluations montrent des rendements décroissants à haut niveau, où plus de compute n’apporte que des améliorations marginales. Des réglages moyens à élevés sont souvent plus rentables, surtout en code et workflows agentiques.

Une intelligence inattendue à faible effort

Un effort faible ne signifie pas toujours un raisonnement inférieur. Dans une évaluation sur Pokémon Red, le modèle a adopté des stratégies de speedrun — éviter des combats, optimiser les objets, réduire les interruptions — pour atteindre ses objectifs plus vite. Les contraintes d’efficacité peuvent donc stimuler des solutions créatives.

Compromis entre taille du modèle et effort

De grands modèles à faible effort peuvent surpasser de petits modèles à effort élevé sur des tâches complexes, offrant un meilleur équilibre entre vitesse et intelligence. À l’inverse, les petits modèles restent avantageux pour des tâches volumineuses et peu complexes comme la classification ou le résumé, ainsi que pour des réponses rapides.

L’évaluation recommandée pour optimiser

Il est conseillé de mener des évaluations structurées, en traçant la performance par rapport au coût, au temps ou aux tokens afin d’identifier les configurations optimales. Examiner les sorties en détail est aussi crucial, car les modèles peuvent adopter des raccourcis inattendus à faible effort.

Vers un calcul autonome de longue durée

Les systèmes futurs devraient étendre davantage l’inférence, potentiellement sur des problèmes durant des jours, des semaines ou plus. Cela positionne l’IA comme un agent de résolution persistant, capable de traiter des défis complexes sur le long terme avec peu de supervision.

CONCLUSION

L’augmentation du compute à l’inférence, via le raisonnement adaptatif et les contrôles d’effort, redéfinit l’équilibre entre intelligence, coût et vitesse, et oriente l’IA vers des modèles plus autonomes et efficaces.

Transcription complète

Sur le même sujet : Anthropic