Anthropic: mémoire persistante, HTML specs et agents optimisés

Anthropicdimanche 24 mai 2026· 5 vidéos

Briefing

Lecteur audio

0:00 / 0:00

Anthropic lance mémoire persistante agents

Anthropic introduit des magasins de mémoire persistants permettant aux agents de conserver des তথ্য entre sessions. Cette approche rompt avec les workflows stateless où chaque interaction repart de zéro. Les agents peuvent désormais lire, লিখ et সংগঠিত des তথ্য comme dans un système de fichiers. Résultat : une continuité opérationnelle et des cas d’usage multi-étapes enfin viables.

Système de dreaming asynchrone dévoilé

Anthropic ajoute un mécanisme de "dreaming" asynchrone pour affiner les connaissances hors interaction utilisateur. Les agents peuvent retraiter et consolider তথ্য en arrière-plan, améliorant progressivement leurs performances. Cette capacité rapproche les agents de formes d’apprentissage continu. Elle ouvre la voie à des systèmes plus autonomes et adaptatifs.

Specs HTML remplacent Markdown chez Anthropic

Anthropic privilégie désormais des spécifications HTML plutôt que Markdown pour encadrer les agents. Le HTML permet des structures plus riches, lisibles et interprétables par les modèles. Cette transition améliore la précision des tâches complexes et réduit les ambiguïtés. Elle marque une évolution vers des interfaces de spécification plus interactives.

Agents interrogent utilisateurs activement

Les workflows évoluent vers des agents capables d’interviewer activement les utilisateurs pour уточнить les besoins. Cette approche remplace les prompts statiques souvent incomplets. Les modèles extraient mieux l’intention implicite via interaction. Cela améliore la qualité des ফল et réduit les erreurs de compréhension.

Evals deviennent standard industriel clé

Les evals structurées s’imposent comme outil central pour mesurer la performance des agents IA. Elles permettent de remplacer les jugements subjectifs par des métriques reproductibles. Les équipes peuvent শনাক্ত précisément les régressions et suivre les progrès. Cela transforme le développement IA en discipline plus scientifique.

Benchmarks SWE-bench et ARC-AGI limités

Des benchmarks comme SWE-bench, Terminal-bench ou ARC-AGI restent utiles mais insuffisants pour des cas réels. Ils mesurent des সক্ষমités générales sans refléter les contraintes উৎপাদ. Les équipes sont encouragées à নির্মাণ leurs propres evals métier. Cela améliore la pertinence des optimisations.

Stock Pilot passe de 62% à 92%

Un agent complexe nommé Stock Pilot a vu ses performances grimper de 62 % à 92 % après simplification. La réduction du prompt système, des outils et des sous-agents a éliminé les conflits internes. Les erreurs provenaient בעיקר d’une surcharge de contexte, pas du modèle. Gains supplémentaires : baisse des coûts et de la latence.

Compétition Minecraft optimise agents IA

Une expérience met en compétition des agents dans Minecraft pour miner des diamants en 35 minutes. Chaque itération de 5 minutes permet d’ajuster prompts, modèles et outils. L’environnement standardisé garantit des তুলন équitables entre approches. Ce format illustre l’importance de l’itération rapide et des evals en conditions contrôlées.

Vidéos couvertes

Tool, skill, or subagent? Decomposing an agent that outgrew its prompt
- •La complexité des agents entraîne une dégradation des performances
- •Un cadre d’évaluation a révélé des problèmes systémiques
- •La surcharge de contexte a provoqué des erreurs de raisonnement
Lire l'article complet →
Agent Battle: Mine the most diamonds in 45 minutes
- •Une compétition d’agents en temps réel
- •Trois objectifs techniques majeurs
- •Un environnement standardisé pour comparer les performances
Lire l'article complet →
Evals for taste: Hill-climbing a slide-generation agent
- •Les evals définissent une performance IA mesurable
- •Réduire l’écart entre perception et réalité
- •Limites des benchmarks génériques
Lire l'article complet →
Agents that remember
- •Limites des agents sans état
- •Introduction des magasins de mémoire
- •Architecture basée sur un système de fichiers
Lire l'article complet →
How we Claude Code
- •Passage du Markdown aux spécifications HTML
- •Montée en puissance des agents IA
- •Extraction interactive des exigences
Lire l'article complet →

Briefing

Anthropic lance mémoire persistante agents

Système de dreaming asynchrone dévoilé

Specs HTML remplacent Markdown chez Anthropic

Agents interrogent utilisateurs activement

Evals deviennent standard industriel clé

Benchmarks SWE-bench et ARC-AGI limités

Stock Pilot passe de 62% à 92%

Compétition Minecraft optimise agents IA

Vidéos couvertes

Tool, skill, or subagent? Decomposing an agent that outgrew its prompt

Agent Battle: Mine the most diamonds in 45 minutes

Evals for taste: Hill-climbing a slide-generation agent

Agents that remember

How we Claude Code

Briefings précédents · Anthropic