
Tech • IA • Crypto
Anthropic introduit des magasins de mémoire persistants permettant aux agents de conserver des তথ্য entre sessions. Cette approche rompt avec les workflows stateless où chaque interaction repart de zéro. Les agents peuvent désormais lire, লিখ et সংগঠিত des তথ্য comme dans un système de fichiers. Résultat : une continuité opérationnelle et des cas d’usage multi-étapes enfin viables.
Anthropic ajoute un mécanisme de "dreaming" asynchrone pour affiner les connaissances hors interaction utilisateur. Les agents peuvent retraiter et consolider তথ্য en arrière-plan, améliorant progressivement leurs performances. Cette capacité rapproche les agents de formes d’apprentissage continu. Elle ouvre la voie à des systèmes plus autonomes et adaptatifs.
Anthropic privilégie désormais des spécifications HTML plutôt que Markdown pour encadrer les agents. Le HTML permet des structures plus riches, lisibles et interprétables par les modèles. Cette transition améliore la précision des tâches complexes et réduit les ambiguïtés. Elle marque une évolution vers des interfaces de spécification plus interactives.
Les workflows évoluent vers des agents capables d’interviewer activement les utilisateurs pour уточнить les besoins. Cette approche remplace les prompts statiques souvent incomplets. Les modèles extraient mieux l’intention implicite via interaction. Cela améliore la qualité des ফল et réduit les erreurs de compréhension.
Les evals structurées s’imposent comme outil central pour mesurer la performance des agents IA. Elles permettent de remplacer les jugements subjectifs par des métriques reproductibles. Les équipes peuvent শনাক্ত précisément les régressions et suivre les progrès. Cela transforme le développement IA en discipline plus scientifique.
Des benchmarks comme SWE-bench, Terminal-bench ou ARC-AGI restent utiles mais insuffisants pour des cas réels. Ils mesurent des সক্ষমités générales sans refléter les contraintes উৎপাদ. Les équipes sont encouragées à নির্মাণ leurs propres evals métier. Cela améliore la pertinence des optimisations.
Un agent complexe nommé Stock Pilot a vu ses performances grimper de 62 % à 92 % après simplification. La réduction du prompt système, des outils et des sous-agents a éliminé les conflits internes. Les erreurs provenaient בעיקר d’une surcharge de contexte, pas du modèle. Gains supplémentaires : baisse des coûts et de la latence.
Une expérience met en compétition des agents dans Minecraft pour miner des diamants en 35 minutes. Chaque itération de 5 minutes permet d’ajuster prompts, modèles et outils. L’environnement standardisé garantit des তুলন équitables entre approches. Ce format illustre l’importance de l’itération rapide et des evals en conditions contrôlées.