ENFR

Tech • IA • Crypto

Aujourd'hui Veille Vidéos Top 24h Crypto Archives Favoris Topics

Cette IA bat Opus 4.8, GPT-5.5 et Gemini (Sakana Fugu)

7/10

Ingénierie IABen BK23 juin 2026 à 16:539:03

Lecteur audio

0:00 / 0:00

INTRO

Le laboratoire japonais Sakana AI a dévoilé Fugu, un modèle d’orchestration qui coordonne plusieurs IA de premier plan et revendique des performances de pointe sur des benchmarks, signalant un passage des modèles uniques vers des systèmes multi‑modèles.

POINTS CLÉS

Un nouveau type d’IA: l’orchestration plutôt que l’échelle

Fugu n’est pas un modèle autonome de pointe, mais un système d’orchestration conçu pour gérer d’autres modèles comme Claude, GPT et Gemini. Il reçoit une requête unique, décide s’il doit répondre directement ou décomposer la tâche, puis distribue des sous‑tâches à des modèles spécialisés avant de fusionner les résultats en une seule réponse. Le système peut s’appeler lui‑même de manière récursive, agissant comme une couche de coordination plutôt qu’une intelligence monolithique.

Des performances annoncées au niveau des meilleurs modèles

Sakana indique que Fugu Ultra atteint 73,7 sur BenchPro, surpassant GPT‑5.5 (58,6) et Claude Opus 4.8. Il obtient aussi 95,5 sur GPQA Diamond, 93,2 sur LiveCodeBench, 82,1 sur TerminalBench et 50 sur Humanity’s Last Exam, soit un niveau proche d’Opus 4.8. Fait notable, l’orchestrateur dépasserait certains des modèles qu’il coordonne.

Des benchmarks non vérifiés

Tous les résultats proviennent de Sakana, sans validation indépendante à ce stade. Les comparaisons avec des modèles restreints comme Fable et Mythos reposent sur des scores de référence rapportés, et non sur des tests directs dans des conditions identiques. Même dans les données de Sakana, Fable 5 semble garder un avantage sur certains benchmarks de code, ce qui souligne l’incertitude autour des annonces.

Fondé sur des recherches publiées

Le système s’appuie sur deux approches évaluées par des pairs. Trinity, un coordinateur léger (~0,6B de paramètres), attribue des rôles comme penseur, exécutant et vérificateur via une petite tête de contrôle optimisée. Un second modèle (~7B de paramètres) est entraîné par apprentissage par renforcement pour gérer les stratégies de communication entre agents en langage naturel. Cet ancrage académique distingue le projet des lancements purement marketing.

Un contexte géopolitique qui renforce sa pertinence

Le lancement intervient après des restrictions américaines limitant l’accès à des modèles avancés comme Fable et Mythos pour les utilisateurs non américains. Cette situation met en évidence les risques de dépendance à un fournisseur unique. Sakana présente Fugu comme une stratégie de résilience: un système exploitant dynamiquement plusieurs modèles pour réduire l’exposition aux chocs d’accès ou de politique.

Une prise de décision opaque qui inquiète

Fugu fonctionne comme une boîte noire: les utilisateurs ne voient pas quels modèles sont utilisés ni comment les tâches sont réparties. Cela limite l’auditabilité, la reproductibilité et l’attribution — des enjeux clés pour les entreprises et les secteurs régulés. Ce manque de transparence peut freiner l’adoption malgré les performances annoncées.

Des coûts imprévisibles

Les prix commencent autour de 20 à 200 $ par mois, avec des frais à l’usage proches de 5 $ en entrée / 30 $ en sortie, plus élevés pour de grands contextes. Cependant, le coût réel dépend du nombre d’appels aux modèles sous‑jacents déclenchés par Fugu. Les premiers tests montrent des résultats contrastés: parfois moins chers qu’un modèle unique, parfois nettement plus coûteux à cause de l’orchestration cachée.

Disponibilité limitée en Europe

Fugu est actuellement indisponible dans l’Union européenne, Sakana travaillant à la conformité RGPD. Cela retarde l’accès sur un marché majeur et illustre les frictions réglementaires auxquelles font face les déploiements d’IA avancée.

CONCLUSION

Fugu marque un passage des modèles toujours plus grands vers une coordination intelligente de multiples systèmes, mais son impact réel dépendra de validations indépendantes, de la transparence et du contrôle des coûts.

Transcription complète

Sur le même sujet : Ingénierie IA