ENFR

Tech • IA • Crypto

Aujourd'hui Veille Vidéos Top 24h Archives Favoris Topics

Une nouvelle IA stupéfiante atteint 12 millions de tokens avec 1000x moins de calcul

5/10

IAAI Revolution19 juin 2026 à 23:3515:00

Lecteur audio

0:00 / 0:00

INTRO

SubQuadratic affirme une percée dans l’attention en IA permettant un raisonnement efficace sur des millions de tokens, susceptible de transformer l’analyse de documents à grande échelle.

POINTS CLÉS

Un goulot d’étranglement fondamental en IA

Les modèles transformeurs modernes souffrent d’une mise à l’échelle quadratique, où doubler la longueur d’entrée quadruple le calcul à cause des comparaisons token-à-token. Cela rend le traitement de grands documents — comme des bases de code complètes ou des contrats juridiques — extrêmement coûteux. Par conséquent, la plupart des systèmes s’appuient sur des pipelines de récupération qui n’analysent que des fragments plutôt que des ensembles complets.

Introduction de l’attention creuse sous-quadratique

L’innovation centrale de l’entreprise, Subquadratic Sparse Attention (SSA), calcule de manière sélective uniquement les relations pertinentes entre tokens selon leur pertinence sémantique. Contrairement aux méthodes creuses antérieures à motifs fixes, SSA identifie dynamiquement les connexions importantes, permettant aux étapes d’attention et de sélection de s’étendre de façon linéaire plutôt que quadratique.

Gains d’efficacité à très grande échelle

Les métriques montrent des réductions de calcul spectaculaires. À 1 million de tokens, l’attention dense nécessite environ 252 pétaflops, tandis que SSA n’en utilise que 3,9, soit une réduction d’environ 64× par couche. Comparé à FlashAttention-2, SSA atteint des performances équivalentes à 16 000 tokens et devient 56× plus rapide à 1 million de tokens sur un NVIDIA H100.

Performances record sur long contexte

Le modèle SubQ 1.1 Small, publié le 16 juin 2026, atteint une précision de récupération quasi parfaite sur des longueurs de contexte extrêmes. Il obtient 100 % de précision à 1M et 2M tokens, et 98 % à 6M et 12M, bien qu’il n’ait pas été entraîné spécifiquement aux plus grandes tailles. À 12M tokens, il ne considère que 0,13 % des paires de tokens possibles.

Capacités de raisonnement générales compétitives

Malgré son focus sur les longs contextes, le modèle conserve de solides performances de raisonnement. Il obtient 85,4 % sur GPQA Diamond, en dessous des systèmes de pointe comme GPT-5.5 (93,2 %) mais au-dessus de modèles plus petits. Sur LiveCodeBench v6, il atteint 89,7 %, surpassant plusieurs concurrents établis.

Évaluation sur des tâches réelles

Sur Automation Bench Finance, qui simule des workflows d’entreprise via 500 API et 47 applications, SubQ 1.1 Small obtient 13 %, proche de modèles leaders comme GPT-5.5 à 18 %. Le benchmark exige un raisonnement en plusieurs étapes sans crédit partiel, ce qui rend ce résultat notable pour un modèle plus petit et spécialisé.

Vérification indépendante et scepticisme

Les résultats ont été partiellement vérifiés par Appen, confirmant une haute précision de récupération à grande échelle. Cependant, un certain scepticisme persiste en raison de promesses excessives passées en IA long contexte. Des écarts antérieurs entre benchmarks internes et externes, ainsi qu’un manque de preuves de déploiement réel, continuent de susciter des questions.

Implications pour l’infrastructure IA

Si elle est validée en production, SSA pourrait réduire la dépendance aux pipelines RAG, aux bases vectorielles et aux systèmes de découpage. De nombreuses architectures IA d’entreprise actuelles existent pour compenser des fenêtres de contexte limitées; lever cette contrainte permettrait aux modèles de traiter directement des documents entiers, simplifiant la conception des systèmes.

Feuille de route et contexte industriel

SubQuadratic prévoit des modèles plus grands supportant des contextes de 2M à 12M tokens plus tard en 2026, avec un déploiement élargi en cours. L’entreprise a levé 29 millions de dollars pour une valorisation de 500 millions, entrant dans un secteur compétitif où des approches comme Mamba, RWKV et des transformeurs hybrides ont eu du mal à dépasser les limites de mise à l’échelle.

CONCLUSION

L’approche SSA de SubQuadratic, si elle se confirme en conditions réelles, pourrait marquer un tournant structurel en éliminant une contrainte computationnelle majeure de l’IA.

Transcription complète

Sur le même sujet : IA