Anthropic mémoire persistante, agents HTML, evals et refactor 92%

Anthropicsamedi 23 mai 2026· 10 vidéos

Briefing

Lecteur audio

0:00 / 0:00

Anthropic lance memory stores persistants

Anthropic introduit des magasins de mémoire persistants pour agents, permettant de conserver des données entre sessions. Cette couche agit comme un système de fichiers, accessible en lecture/écriture par les agents. Elle corrige la limite majeure des agents « sans état », incapables de gérer des tâches longues ou des suivis. Résultat : une continuité opérationnelle et des workflows multi-étapes enfin viables.

Système “dreaming” optimise la mémoire

Anthropic ajoute un mécanisme asynchrone de “dreaming” pour consolider et affiner les connaissances. Les agents peuvent retraiter leurs expériences hors temps réel pour améliorer leurs performances futures. Cette approche rappelle des boucles d’apprentissage différé, appliquées aux agents. Elle ouvre la voie à des systèmes qui s’améliorent sans intervention humaine directe.

Specs HTML remplacent Markdown

Les équipes d’Anthropic migrent vers des spécifications en HTML pour les workflows IA. Le format permet une structure plus riche, des visuels intégrés et une meilleure lisibilité pour humains et agents. Cette évolution améliore l’interprétation des exigences complexes. Elle réduit aussi les erreurs liées à des specs ambiguës ou trop linéaires.

Evals deviennent indispensables

Les evals s’imposent comme socle du développement d’agents fiables. Elles transforment des impressions subjectives en métriques mesurables et comparables dans le temps. Des benchmarks comme SWE-bench ou ARC-AGI restent utiles mais insuffisants pour des cas réels. Les équipes construisent désormais des suites personnalisées avec cas limites, refus et scénarios critiques.

Refactor d’agent: 62% à 92%

Un agent Stock Pilot surchargé (prompt de 400 lignes, 12 outils) a vu ses performances chuter à 62 %. Une refonte radicale — simplification des prompts, réduction des outils, meilleure orchestration — a permis d’atteindre 92 %. Le problème venait surtout d’une surcharge de contexte et d’instructions contradictoires. La leçon : la complexité non maîtrisée dégrade directement la qualité.

AirOps lance agent Quill

AirOps introduit Quill, un agent IA dédié à la stratégie de contenu. Il exploite données de marque, recherche et guidelines pour produire du contenu optimisé pour ChatGPT, Claude et Gemini. L’approche abandonne les workflows complexes au profit de systèmes orientés documents. Objectif : améliorer visibilité, taux de citation et part de voix dans la recherche IA.

DSL AshPL fiabilise les agents

Le langage AshPL formalise les workflows d’agents pour garantir traçabilité et cohérence. Il impose des processus lisibles, inspectables et reproductibles, au-delà du simple résultat final. Cette approche privilégie le mécanisme plutôt que la sortie brute. Elle répond aux exigences de rigueur dans des domaines critiques comme la recherche scientifique.

IA déplace le bottleneck du code

Le codage assisté par IA déplace la contrainte principale vers la vérification plutôt que la production. Génération, tests et refactoring deviennent rapides, mais la validation devient critique. Des pratiques comme le test-driven development gagnent en pertinence grâce à l’automatisation. Les organisations abandonnent progressivement des პროცესus hérités devenus inefficaces.

Vidéos couvertes

The prompting playbook
- •Le prompting reste une compétence d’ingénierie fondamentale
- •Les cadres d’évaluation sont essentiels
- •Échec courant des prompts hérités
Lire l'article complet →
The Problem Solvers: Kay Zhu at Genspark
- •L’IA redéfinit les parcours professionnels
- •Expansion des environnements de travail alimentés par l’IA
- •Des startups dépendantes des partenariats
Lire l'article complet →
How AirOps chases friction to build AI products with Claude
- •Passage des constructeurs de workflows aux agents
- •Ciblage des marketeurs dans la recherche IA
- •Lancement d’AirOps Next et de l’agent Quill
Lire l'article complet →
Running an AI-native engineering org
- •Les goulets d’étranglement passent du code à la vérification
- •Les processus hérités « cessent discrètement de fonctionner »
- •L’IA transforme les pratiques comme les tests et le refactoring
Lire l'article complet →
Making agentic workflows trustworthy and verifiable with a custom DSL
- •Mécanisme plutôt que résultat
- •Compromis entre vitesse et rigueur
- •Trois exigences pour des agents fiables
Lire l'article complet →
Tool, skill, or subagent? Decomposing an agent that outgrew its prompt
- •La complexité des agents entraîne une dégradation des performances
- •Un cadre d’évaluation a révélé des problèmes systémiques
- •La surcharge de contexte a provoqué des erreurs de raisonnement
Lire l'article complet →
Agent Battle: Mine the most diamonds in 45 minutes
- •Une compétition d’agents en temps réel
- •Trois objectifs techniques majeurs
- •Un environnement standardisé pour comparer les performances
Lire l'article complet →
Evals for taste: Hill-climbing a slide-generation agent
- •Les evals définissent une performance IA mesurable
- •Réduire l’écart entre perception et réalité
- •Limites des benchmarks génériques
Lire l'article complet →
Agents that remember
- •Limites des agents sans état
- •Introduction des magasins de mémoire
- •Architecture basée sur un système de fichiers
Lire l'article complet →
How we Claude Code
- •Passage du Markdown aux spécifications HTML
- •Montée en puissance des agents IA
- •Extraction interactive des exigences
Lire l'article complet →

Briefing

Anthropic lance memory stores persistants

Système “dreaming” optimise la mémoire

Specs HTML remplacent Markdown

Evals deviennent indispensables

Refactor d’agent: 62% à 92%

AirOps lance agent Quill

DSL AshPL fiabilise les agents

IA déplace le bottleneck du code

Vidéos couvertes

The prompting playbook

The Problem Solvers: Kay Zhu at Genspark

How AirOps chases friction to build AI products with Claude

Running an AI-native engineering org

Making agentic workflows trustworthy and verifiable with a custom DSL

Tool, skill, or subagent? Decomposing an agent that outgrew its prompt

Agent Battle: Mine the most diamonds in 45 minutes

Evals for taste: Hill-climbing a slide-generation agent

Agents that remember

How we Claude Code

Briefings précédents · Anthropic