ENFR
8news

Tech • IA • Crypto

Aujourd'huiVeilleVidéosTop 24hArchivesFavorisTopics

Le remplaçant de Fable 5 vient de sortir : Fusion (IA de niveau Fable)

7/10
IAAI Revolution16 juin 2026 à 22:5115:20
Lecteur audio
0:00 / 0:00

INTRO

Une approche « Fusion » multi-modèles émerge comme une alternative moins coûteuse aux systèmes d’IA de pointe, atteignant des performances proches de la frontière sur des tâches de recherche tout en révélant des compromis dans les workflows longs et complexes.

POINTS CLÉS

Montée des systèmes de modèles Fusion

Une nouvelle approche de l’IA, appelée Fusion, combine plusieurs modèles au lieu de s’appuyer sur un seul. Les prompts sont envoyés simultanément à plusieurs modèles, chacun produisant des réponses indépendantes à l’aide d’outils comme la recherche web et l’exécution de code. Un modèle « juge » distinct synthétise ensuite ces sorties en une réponse unique, en identifiant accords, contradictions et éléments manquants.

Gains de performance sur les benchmarks

Sur le benchmark Draco, qui évalue 100 tâches de recherche dans des domaines comme le droit, la finance et la médecine, les modèles individuels affichent de bonnes performances mais limitées. Claude Fable 5 atteint 65,3 %, GPT 5.5 60 %, et DeepSeek V4 Pro 60,3 %. Les combinaisons Fusion surpassent tous les modèles seuls, avec une meilleure configuration à 69 %.

Preuve de l’avantage de la synthèse

Même l’utilisation du même modèle deux fois améliore les résultats. Exécuter Opus 4.8 en parallèle puis synthétiser les réponses fait passer son score de 58,8 % à 65,5 %, ce qui suggère que les gains proviennent non seulement de la diversité des modèles, mais aussi de la comparaison de plusieurs chaînes de raisonnement et de la consolidation des meilleures.

Quasi-parité à moindre coût

Un panel Fusion « économique » combinant Gemini 3 Flash, Kimmy K 2.6 et DeepSeek V4 Pro, avec Opus 4.8 comme synthétiseur, atteint 64,7 %, soit seulement 0,6 point de moins que Fable 5. D’où l’idée d’une « intelligence niveau Fable à moitié prix », pertinente pour des environnements de production à fort volume de requêtes.

Différences de prix significatives

Les configurations Fusion sont estimées entre 1,50 $ et 3 $ par million de tokens en entrée et 4 $ à 6 $ en sortie, contre 3 $ à 6 $ en entrée et 9 $ à 15 $ en sortie pour Fable 5. Pour des charges générant 10 millions de tokens en sortie par jour, les coûts mensuels pourraient passer d’environ 90 000 $–150 000 $ à 40 000 $–60 000 $.

Fiabilité accrue grâce au désaccord

Fusion atténue une faiblesse clé des systèmes à modèle unique : les angles morts. En forçant plusieurs modèles à analyser indépendamment une question, le système met en évidence les désaccords et hypothèses négligées. La phase finale de synthèse intègre ces perspectives en une réponse plus équilibrée et complète.

Accès aux outils et protocole d’évaluation

Tous les modèles testés utilisaient les mêmes outils, notamment recherche web et récupération via Exa et exécution bash, garantissant que les gains proviennent de l’orchestration et non d’outils supérieurs. Les réponses ont été évaluées selon une grille pondérée mettant l’accent sur l’exactitude factuelle, la profondeur du raisonnement et la qualité des citations.

Limites du benchmark et de la méthodologie

Le benchmark Draco se limite à des tâches textuelles en anglais et ne couvre pas les workflows longs et multi-étapes. Certaines incohérences subsistent, dont des complétions partielles pour Fable 5 et des différences dans les modèles de jugement. Un problème de contamination lié à l’accès aux critères de notation a ensuite été corrigé en bloquant certains domaines.

Faiblesses sur les tâches de long horizon

Fusion peine sur les workflows de long horizon, où les tâches exigent de nombreuses étapes dépendantes et une mémoire cohérente. Les processus séquentiels—comme le développement de grands systèmes ou la gestion de plans étendus—bénéficient d’un modèle unique maintenant la cohérence. La structure parallèle de Fusion peut fragmenter l’état et réduire la fiabilité.

Compromis selon les cas d’usage

Fusion convient le mieux aux charges de travail intensives en recherche, variables et à fort volume, où le coût et la diversité des perspectives comptent. Les systèmes à modèle unique comme Fable 5 restent préférables pour des tâches sensibles à la conformité, reproductibles ou fortement séquentielles, nécessitant un contexte stable et un comportement cohérent.

CONCLUSION

Les systèmes Fusion montrent que combiner plusieurs modèles d’IA peut rivaliser avec les performances de pointe à un coût nettement inférieur, mais ils restent complémentaires plutôt qu’un remplacement complet pour les tâches complexes et de longue durée.

Transcription complète

Sur le même sujet : IA