
Tech • IA • Crypto
Les modèles V4 de DeepSeek combinent des performances proches de l’état de l’art avec des coûts radicalement plus bas, signalant un changement majeur dans l’économie de l’IA, la compétition en infrastructure et les capacités de long contexte.
DeepSeek V4 Pro et V4 Flash ont été lancés comme un système à deux niveaux visant différents usages. V4 Pro utilise une architecture mixture-of-experts de 1,6 trillion de paramètres avec 49 milliards de paramètres actifs par requête, tandis que V4 Flash est plus petit avec 284 milliards au total et 13 milliards actifs. Les deux sont centrés sur le texte, avec des fenêtres de contexte de 1 million de tokens et jusqu’à 384 000 tokens en sortie, adaptés au raisonnement à grande échelle et aux workflows d’agents.
Le prix est la principale rupture. V4 Flash coûte 0,14 $ par million de tokens en entrée et 0,28 $ en sortie, tandis que V4 Pro coûte 1,74 $ en entrée et 3,48 $ en sortie. Les systèmes comparables sont bien plus chers: GPT‑5.5 serait à 5 $/30 $ et jusqu’à 30 $/180 $, et Claude Opus 4.7 autour de 5 $/25 $. V4 Pro peut ainsi être jusqu’à 98 % moins cher, réduisant fortement le coût de déploiement.
Les premiers tests montrent de bons résultats sans domination. V4 Pro est troisième parmi les modèles ouverts et 14e au total en code, et proche du sommet sur d’autres tests. Il atteint 90,2 % sur Apex (maths), mais reste derrière Gemini 3.1 Pro sur des tests de raisonnement comme GPQA Diamond et Humanity’s Last Exam.
Le code et les agents sont ses points forts. Des tests internes indiquent que plus de 90 % des développeurs classent V4 Pro parmi les meilleurs outils, et plus de la moitié prêts à l’adopter par défaut. Il s’intègre à Claude Code, OpenCode et Code Buddy, et gère des agents multi-étapes pour recherche, analyse et génération logicielle.
Une innovation clé est le raisonnement intercalé, qui conserve l’état entre appels d’outils. Cela réduit la perte de contexte dans les workflows longs, améliorant la fiabilité là où d’autres modèles perdaient le fil.
DeepSeek introduit une attention hybride combinant Compressed Sparse Attention (CSA) et Heavily Compressed Attention (HCA). Ces méthodes compressent les tokens et ciblent le calcul, permettant 1 million de tokens efficacement. V4 Pro réduit le calcul à 27 % et la mémoire à 10 %, encore moins pour Flash.
D’autres innovations incluent des hyperconnexions contraintes par variété pour stabiliser les signaux et l’optimiseur Muon pour l’entraînement massif. Elles apporteraient jusqu’à 2× d’accélération en inférence.
V4 fonctionne sur GPU Nvidia et puces chinoises, notamment Huawei Ascend NPU. Nvidia supporte Blackwell et Hopper, tandis que Huawei annonce jusqu’à 1,73× d’accélération. Cela reflète la compétition sur l’infrastructure IA.
Les restrictions américaines ont poussé vers plus d’efficacité et des alternatives locales. L’entraînement utilise encore Nvidia, mais l’inférence bascule vers des puces locales, suggérant un écosystème IA parallèle.
Les coûts rendent viables des usages à grande échelle: analyse juridique, recherche financière, revue de code, automatisation. Les petites équipes profitent de V4 Flash pour des systèmes de chat, résumé et agents à bas coût.
Sous licence MIT, les modèles peuvent être téléchargés, modifiés et auto-hébergés, offrant plus de contrôle que les API fermées.
V4 reste texte uniquement, laissant les concurrents devant en multimodal. Il accuse aussi un retard de 3 à 6 mois sur certains benchmarks de raisonnement.
Les retours varient: certains voient des performances proches du haut de gamme à moindre coût, d’autres notent peu de différence au quotidien.
Plutôt que surpasser tous ses rivaux, V4 redéfinit les attentes en coût et accessibilité, combinant performance, efficacité et ouverture pour challenger les modèles premium.