ENFR

Tech • IA • Crypto

Aujourd'hui Topics Vidéos Crypto Archives Favoris

La nouvelle IA de Microsoft bat Mythos et surprend OpenAI

7/10

IAAI Revolution15 mai 2026 à 22:2414:51

Lecteur audio

0:00 / 0:00

INTRO

Le système de sécurité IA multi-agents de Microsoft, Mdash, a surpassé les meilleurs modèles uniques sur un benchmark majeur et a déjà découvert des vulnérabilités critiques de Windows.

POINTS CLÉS

Performance de premier plan sur benchmark

Mdash de Microsoft a obtenu 88,45 % sur le benchmark CyberGym, dépassant Mythos d’Anthropic à 83,1 % et GPT-5.5 d’OpenAI à 81,8 %. Le résultat est notable car les concurrents s’appuyaient sur leurs modèles propriétaires les plus avancés, tandis que Microsoft utilisait des modèles largement disponibles intégrés dans un système plus large. Le benchmark comprend 157 tâches réelles de reproduction de vulnérabilités issues de 188 projets open source de fuzzing.

Architecture multi-agents

Mdash fonctionne comme un pipeline coordonné de plus de 100 agents IA spécialisés, plutôt qu’un modèle unique. Ces agents assurent des rôles distincts tels que l’audit, le débat, la validation, la déduplication et la preuve des vulnérabilités. Le système traite le code en cinq étapes: préparer, analyser, valider, dédupliquer et prouver, permettant une analyse et une vérification en couches.

Conception indépendante du modèle

Le système est conçu pour être agnostique vis-à-vis des modèles, permettant aux ingénieurs d’intégrer de nouveaux modèles IA sans reconstruire le pipeline. Différentes étapes utilisent différents types de modèles, des systèmes à fort raisonnement aux modèles plus légers et efficaces pour la vérification. Les désaccords entre agents sont exploités comme signaux, renforçant la confiance dans les vulnérabilités identifiées.

Vulnérabilités réelles découvertes

Déployé sur le code Windows, Mdash a identifié 16 vulnérabilités, dont quatre failles critiques prévues pour correction lors d’un récent Patch Tuesday. Certaines permettent une exécution de code à distance sans authentification, représentant des risques majeurs.

Détection de bugs complexes

Une faille découverte, CVE-2026-333827, impliquait un bug use-after-free dans la pile TCP/IP de Windows, où la mémoire est utilisée après libération. Une autre, CVE-2026-333824, était une vulnérabilité double-free répartie sur six fichiers, permettant une compromission potentielle du système avec seulement deux paquets réseau spécialement conçus. Ces problèmes nécessitaient un raisonnement inter-fichiers et une comparaison de motifs au-delà d’une simple analyse de fonction.

Rappel élevé sur exploits connus

Les tests internes ont montré de fortes performances sur des vulnérabilités historiques. Mdash a atteint 96 % de rappel sur 28 cas dans un composant Windows et 100 % de rappel sur sept cas dans un autre. Sur un pilote de test privé avec 21 vulnérabilités injectées, le système les a toutes identifiées avec zéro faux positif.

Limites et cas d’échec

L’analyse des échecs du benchmark a révélé que 82 % des erreurs d’identification provenaient de descriptions vagues de vulnérabilités sans références claires au code. Dans d’autres cas, le système produisait une logique d’exploitation correcte mais échouait à cause de formats d’entrée incompatibles, soulignant l’importance de définitions de tâches précises.

Évolution de la compétition en IA

Les résultats suggèrent un passage d’un focus sur la puissance brute des modèles à une emphase sur l’ingénierie système et l’orchestration. L’approche de Microsoft montre que combiner efficacement plusieurs modèles peut rivaliser avec, voire dépasser, les systèmes autonomes de pointe.

Implications pour la cybersécurité

Les mêmes techniques permettant aux défenseurs de détecter plus vite les vulnérabilités pourraient aussi être utilisées par des attaquants. Comme Mdash repose sur des modèles publics et une conception modulaire, des systèmes similaires pourraient être reproduits, accélérant les capacités offensives et défensives.

Déploiement précoce

Mdash est actuellement en aperçu privé limité, sans tarification ni calendrier de sortie générale annoncés. Le développement a impliqué des équipes de Autonomous Code Security, Offensive Research and Security Engineering et Windows Attack Research de Microsoft, incluant des membres de la Team Atlanta, gagnante du DARPA AI Cyber Challenge.

CONCLUSION

Mdash illustre un virage vers les systèmes IA multi-agents en cybersécurité, où l’orchestration et l’ingénierie peuvent rivaliser avec la puissance brute des modèles tout en accélérant les capacités de défense et d’attaque.

Transcription complète

Sur le même sujet : IA