
Tech • IA • Crypto
Une approche « Fusion » multi-modèles émerge comme une alternative moins coûteuse aux systèmes d’IA de pointe, atteignant des performances proches de la frontière sur des tâches de recherche tout en révélant des compromis dans les workflows longs et complexes.
Une nouvelle approche de l’IA, appelée Fusion, combine plusieurs modèles au lieu de s’appuyer sur un seul. Les prompts sont envoyés simultanément à plusieurs modèles, chacun produisant des réponses indépendantes à l’aide d’outils comme la recherche web et l’exécution de code. Un modèle « juge » distinct synthétise ensuite ces sorties en une réponse unique, en identifiant accords, contradictions et éléments manquants.
Sur le benchmark Draco, qui évalue 100 tâches de recherche dans des domaines comme le droit, la finance et la médecine, les modèles individuels affichent de bonnes performances mais limitées. Claude Fable 5 atteint 65,3 %, GPT 5.5 60 %, et DeepSeek V4 Pro 60,3 %. Les combinaisons Fusion surpassent tous les modèles seuls, avec une meilleure configuration à 69 %.
Même l’utilisation du même modèle deux fois améliore les résultats. Exécuter Opus 4.8 en parallèle puis synthétiser les réponses fait passer son score de 58,8 % à 65,5 %, ce qui suggère que les gains proviennent non seulement de la diversité des modèles, mais aussi de la comparaison de plusieurs chaînes de raisonnement et de la consolidation des meilleures.
Un panel Fusion « économique » combinant Gemini 3 Flash, Kimmy K 2.6 et DeepSeek V4 Pro, avec Opus 4.8 comme synthétiseur, atteint 64,7 %, soit seulement 0,6 point de moins que Fable 5. D’où l’idée d’une « intelligence niveau Fable à moitié prix », pertinente pour des environnements de production à fort volume de requêtes.
Les configurations Fusion sont estimées entre 1,50 $ et 3 $ par million de tokens en entrée et 4 $ à 6 $ en sortie, contre 3 $ à 6 $ en entrée et 9 $ à 15 $ en sortie pour Fable 5. Pour des charges générant 10 millions de tokens en sortie par jour, les coûts mensuels pourraient passer d’environ 90 000 $–150 000 $ à 40 000 $–60 000 $.
Fusion atténue une faiblesse clé des systèmes à modèle unique : les angles morts. En forçant plusieurs modèles à analyser indépendamment une question, le système met en évidence les désaccords et hypothèses négligées. La phase finale de synthèse intègre ces perspectives en une réponse plus équilibrée et complète.
Tous les modèles testés utilisaient les mêmes outils, notamment recherche web et récupération via Exa et exécution bash, garantissant que les gains proviennent de l’orchestration et non d’outils supérieurs. Les réponses ont été évaluées selon une grille pondérée mettant l’accent sur l’exactitude factuelle, la profondeur du raisonnement et la qualité des citations.
Le benchmark Draco se limite à des tâches textuelles en anglais et ne couvre pas les workflows longs et multi-étapes. Certaines incohérences subsistent, dont des complétions partielles pour Fable 5 et des différences dans les modèles de jugement. Un problème de contamination lié à l’accès aux critères de notation a ensuite été corrigé en bloquant certains domaines.
Fusion peine sur les workflows de long horizon, où les tâches exigent de nombreuses étapes dépendantes et une mémoire cohérente. Les processus séquentiels—comme le développement de grands systèmes ou la gestion de plans étendus—bénéficient d’un modèle unique maintenant la cohérence. La structure parallèle de Fusion peut fragmenter l’état et réduire la fiabilité.
Fusion convient le mieux aux charges de travail intensives en recherche, variables et à fort volume, où le coût et la diversité des perspectives comptent. Les systèmes à modèle unique comme Fable 5 restent préférables pour des tâches sensibles à la conformité, reproductibles ou fortement séquentielles, nécessitant un contexte stable et un comportement cohérent.
Les systèmes Fusion montrent que combiner plusieurs modèles d’IA peut rivaliser avec les performances de pointe à un coût nettement inférieur, mais ils restent complémentaires plutôt qu’un remplacement complet pour les tâches complexes et de longue durée.