ENFR
8news

Tech • IA • Crypto

Aujourd'huiMa veilleVidéosTop articles 24hArchivesFavorisMes topics

Anthropic: mémoire persistante, HTML specs et agents optimisés

Anthropicdimanche 24 mai 2026· 5 vidéos

Briefing

Lecteur audio
0:00 / 0:00

Anthropic lance mémoire persistante agents

Anthropic introduit des magasins de mémoire persistants permettant aux agents de conserver des তথ্য entre sessions. Cette approche rompt avec les workflows stateless où chaque interaction repart de zéro. Les agents peuvent désormais lire, লিখ et সংগঠিত des তথ্য comme dans un système de fichiers. Résultat : une continuité opérationnelle et des cas d’usage multi-étapes enfin viables.

Système de dreaming asynchrone dévoilé

Anthropic ajoute un mécanisme de "dreaming" asynchrone pour affiner les connaissances hors interaction utilisateur. Les agents peuvent retraiter et consolider তথ্য en arrière-plan, améliorant progressivement leurs performances. Cette capacité rapproche les agents de formes d’apprentissage continu. Elle ouvre la voie à des systèmes plus autonomes et adaptatifs.

Specs HTML remplacent Markdown chez Anthropic

Anthropic privilégie désormais des spécifications HTML plutôt que Markdown pour encadrer les agents. Le HTML permet des structures plus riches, lisibles et interprétables par les modèles. Cette transition améliore la précision des tâches complexes et réduit les ambiguïtés. Elle marque une évolution vers des interfaces de spécification plus interactives.

Agents interrogent utilisateurs activement

Les workflows évoluent vers des agents capables d’interviewer activement les utilisateurs pour уточнить les besoins. Cette approche remplace les prompts statiques souvent incomplets. Les modèles extraient mieux l’intention implicite via interaction. Cela améliore la qualité des ফল et réduit les erreurs de compréhension.

Evals deviennent standard industriel clé

Les evals structurées s’imposent comme outil central pour mesurer la performance des agents IA. Elles permettent de remplacer les jugements subjectifs par des métriques reproductibles. Les équipes peuvent শনাক্ত précisément les régressions et suivre les progrès. Cela transforme le développement IA en discipline plus scientifique.

Benchmarks SWE-bench et ARC-AGI limités

Des benchmarks comme SWE-bench, Terminal-bench ou ARC-AGI restent utiles mais insuffisants pour des cas réels. Ils mesurent des সক্ষমités générales sans refléter les contraintes উৎপাদ. Les équipes sont encouragées à নির্মাণ leurs propres evals métier. Cela améliore la pertinence des optimisations.

Stock Pilot passe de 62% à 92%

Un agent complexe nommé Stock Pilot a vu ses performances grimper de 62 % à 92 % après simplification. La réduction du prompt système, des outils et des sous-agents a éliminé les conflits internes. Les erreurs provenaient בעיקר d’une surcharge de contexte, pas du modèle. Gains supplémentaires : baisse des coûts et de la latence.

Compétition Minecraft optimise agents IA

Une expérience met en compétition des agents dans Minecraft pour miner des diamants en 35 minutes. Chaque itération de 5 minutes permet d’ajuster prompts, modèles et outils. L’environnement standardisé garantit des তুলন équitables entre approches. Ce format illustre l’importance de l’itération rapide et des evals en conditions contrôlées.

Vidéos couvertes

Briefings précédents · Anthropic