ENFR
8news

Tech • IA • Crypto

Aujourd'huiMa veilleVidéosTop articles 24hArchivesFavorisMes topics

L’IA vous rackette en silence (et personne n’en parle)

IAGrand Angle Nova31 mai 2026 à 07:0017:56
Lecteur audio
0:00 / 0:00

INTRO

La demande croissante de puces d’IA provoque un goulot d’étranglement mondial dans la mémoire et le packaging, augmentant discrètement les prix de l’électronique grand public via ce que certains appellent une « taxe IA ».

POINTS CLÉS

Une hausse cachée des coûts dans la tech du quotidien

Les prix de composants standards comme la RAM ont bondi jusqu’à 90 % début 2026, contribuant à une hausse d’environ 20 % du prix des PC chez des fabricants comme Dell, HP et Lenovo. Dans les smartphones, l’effet est plus discret: à prix égal, les appareils offrent désormais des spécifications réduites, avec moins de mémoire et des fonctionnalités dégradées.

L’émergence d’une « taxe IA »

Les consommateurs financent indirectement le boom de l’IA sans acheter eux-mêmes de services d’IA. Le terme « taxe IA » est apparu aux États-Unis pour décrire comment les contraintes d’approvisionnement sur des composants clés se répercutent sur l’ensemble du marché électronique, augmentant les coûts de produits non liés.

Le vrai goulot d’étranglement n’est pas la puissance de calcul

Contrairement à l’idée reçue, le facteur limitant du matériel d’IA n’est pas le GPU ni l’unité de calcul. En 2025, des acteurs majeurs comme Nvidia, AMD, Google et Amazon n’utilisaient qu’environ 12 % de la capacité mondiale de puces logiques, tout en consommant plus de 90 % du packaging avancé et de la mémoire HBM.

La mémoire domine le coût des puces

La mémoire à large bande passante (HBM) est devenue le composant le plus coûteux des puces d’IA, représentant plus de 60 % des coûts de fabrication en 2025, contre environ la moitié l’année précédente. Par exemple, dans le GPU B200 de Nvidia, la mémoire et le packaging représentent ensemble près des deux tiers du coût de production.

Une chaîne d’approvisionnement contrôlée par peu d’acteurs

Le marché mondial de la HBM est dominé par seulement trois entreprises: SK hynix, Samsung et Micron. Leur capacité de production est déjà entièrement réservée jusqu’en 2026 et en grande partie jusqu’en 2027, certains leaders du secteur avertissant que les pénuries pourraient durer jusqu’en 2030.

Des arbitrages qui réduisent l’offre de mémoire grand public

Produire de la HBM consomme bien plus de ressources que la mémoire standard. Les fabricants qui se tournent vers cette mémoire plus rentable pour l’IA réduisent de fait la production de RAM classique, resserrant l’offre pour les PC, smartphones et consoles.

Le packaging: un goulet critique et sous-estimé

Le packaging avancé des puces, notamment la technologie CoWoS, est essentiel pour connecter processeurs et mémoire à haute vitesse. Ce segment est dominé par TSMC, qui contrôle l’essentiel de la capacité haut de gamme mondiale. La demande dépasse largement l’offre malgré une expansion rapide.

L’expansion contrainte de TSMC

TSMC vise une forte montée en capacité du packaging avancé d’ici 2026, mais Nvidia aurait à lui seul sécurisé environ 60 % de la production future. Cette concentration renforce les goulots d’étranglement dans l’industrie.

Une dépendance encore plus profonde à un fournisseur unique

Sous la production de puces se cache une contrainte encore plus forte: les machines de lithographie de ASML. Ces systèmes, coûtant jusqu’à 350 millions d’euros l’unité, sont indispensables pour fabriquer des puces de pointe et proviennent d’une seule entreprise après des décennies de R&D.

Le « mur de la mémoire » et les limites physiques

Les systèmes d’IA font face à un défi fondamental appelé le mur de la mémoire: les unités de calcul nécessitent des flux de données massifs et rapides pour fonctionner efficacement. Des technologies comme la HBM empilée tentent d’y répondre, mais la complexité de fabrication et les problèmes de rendement limitent fortement leur déploiement.

Même les géants de la tech ne peuvent y échapper

Des entreprises comme Google, malgré la conception de puces personnalisées comme les TPU, restent dépendantes du même écosystème contraint: fournisseurs de HBM, packaging de TSMC et outils de lithographie d’ASML.

CONCLUSION

La course mondiale à l’IA est de plus en plus limitée non par la puissance de calcul, mais par la rareté de la mémoire, du packaging et des outils de fabrication spécialisés, concentrant le pouvoir chez quelques fournisseurs et augmentant discrètement les coûts dans tout le marché technologique.

Transcription complète

Quand avez-vous acheté pour la dernière fois un produit d'intelligence artificielle? Peut-être jamais ou peut-être un abonnement à chatt à 20 dollars une fois par curiosité. Et pourtant au fond peu importe car depuis le début de l'année, Lia vous a déjà probablement fait des poches, même si vous ne lui avez jamais rien acheté en direct. Prenez la mémoire vive, la RAM, un composant banal qu'on trouve absolument dans tous les ordinateurs de la planète. Premier trimestre, son prix abondit de 90 % par rapport à la fin 2025. Chez Antimateur, on a cessé de revoir tous nos prix à la hausse en partie à cause de cela depuis le début de l'année. Et les conséquences ne se font évidemment pas attendre. Les grands fabricants comme Dell, HP ou Lenovo ont prévenu leurs clients. Les ordinateurs m'ont coûté quasin 20 % plus cher. Côté smartphone, c'est plus sour noir. Le téléphone à 600 € de 2026 ressemble à s méprendre à celui de 2025, mais avec moins de mémoire, un écran parfois plus terne, un appareil photo discrètement revu à la baisse, vous payez la même chose mais vous en avez moins. Aux États-Unis, on a déjà trouvé un nom pour ça. On appelle ça la AI taxe, la taxe de l'IA. un impôt que vous réglez sans jamais avoir acheté le moindre abonnement à un quelconque LM. Alors, que se passe-t-il? Et bien, les puces, messieurs, mesdames, les puces qui font tourner chaque modèle dévore la mémoire à une vitesse telle qu'il n'en reste tout simplement plus assez pour vous. Les puia a, on en parle partout dans nos vidéos, dans les médias, dans chaque interview, chaque conférence. Bref, c'est le sujet au point qu'on a tous fini par se représenter une puilla comme un petit carré noir magique posé sur une grosse carte. Spoiler, c'est beaucoup plus compliqué que ça. Et c'est tout le problème. Presque personne ne sait vraiment ce qu'il y a à l'intérieur. Alors que c'est exactement làdedans, dans ce petit carré que tout le monde fixe sans jamais le voir, que se joue la guerre des milliards de dollars de l'intelligence artificielle. En vue de l'extérieur, une puilla, c'est un rectangle, un bloc sombre lissé posé sur une grande carte verte. On dirait un objet unique sorti d'un seul moule. Mais comme je tiens à vulgariser la chose, on va voir ça différemment. Une pucilla n'est pas un objet, c'est un assemblage. Mieux, c'est une équipe. Et comme dans toute équipe, chaque membre a un rôle précis et aucun ne fait le travail des autres. Pour faire tourner UNIA, il faut réunir grosso modo trois choses. La première, c'est le cerveau qui calcule. C'est la partie qu'on appelle l'unité logique, le GPU ou plus largement l'accélérateur IA. un morceau de silicium sur lequel sont gravés une foultitude de transistors qui exécutent chaque seconde des milliards de petites opérations logique. Parce qu'au fond, une ce n'est jamais que ça. Des montagnes d'opérations logiques basiques que l'on enchaîne les unes après les autres. Et ce GPU c'est la star, c'est la pièce dont tout le monde parle, celle qu'on imagine spontanément quand on dit Pusilla. La deuxième partie c'est une sorte de garde mangé qui nourrit le cerveau, la mémoire. Parce que oui, un cerveau génial mais affamé ne sert strictement à rien, que ce soit le vôtre ou celui du NIA. Et le problème ce n'est pas seulement d'avoir de la nourriture en stock, c'est aussi de la servir assez vite. Le cœur de calcul peut-être monstrueusement puissant mais s'il doit attendre des données qui arrivent trop lentement, toute cette puissance se retrouve sous-utilisée. C'est à cela que sert la mémoire. Ce sont des espaces de stockage empilés au plus près du cerveau de la puce dont le rôle est simple, l'alimenter en donné en continu à très haute vitesse pour qu'il ne perde jamais une fraction de secondes à attendre. La troisième et dernière partie, c'est ce qu'on pourrait considérer comme une sorte de colle qui fait de tout ça un seul organisme. C'est ce que l'on appelle le packaging. Sans lui, vous avez un cerveau d'un côté, un garde manger de l'autre, posé côte à côte mais étranger l'un à l'autre. Cerveau, garde manger et colle et autour un peu d'intendance, le support, la carte et voilà, vous avez votre puce. Si une seule de ces trois pièces vient à manquer, toute la puce s'arrête. C'est la loi du maillon faible. Une chaîne est aussi performante que son élément le plus faible. Gardez bien cette voix en tête parce queintuitivement, on se dit que la course Alia, c'est une course au cerveau le plus intelligent, donc à la meilleure unité logique. Et ben sur le papier, si effectivement c'est intuitif, c'est absolument pas le cas. Alors, prenons un peu de moteur. Si c'est intuitif au premier abord, c'est bien parce que les meilleurs modèles tournent sur les meilleures puces. Et les meilleures puces, c'est celles qui ont le cerveau le plus puissant. Nvidia, CGPU, leurs unités logiques. Sauf qu'on a aujourd'hui les chiffres pour vérifier et il raconte une toute autre histoire. EPOCI, un organisme de recherche que j'invite vivement les plus curieux d'entre vous à suivre, à reconstituer trimestre après trimestre ce que les quatre grands concepteurs de puce, Nvidia, AMD, Google et Amazon, ont consommé pour chaque composant en 2025. L'année dernière, ces quatre acteurs ont absorbé plus de 90 % de toute la capacité mondiale de packaging, plus de 90 % de toute la mémoire HBM et le cerveau, la fameuse unité logique dans tout ça, et ben environ 12 % seulement. Rendez-vous compte, côté mémoire et côté packaging, les quatre géants raflent quasiment tout ce qui existe sur la planète. Côté cerveau, il pioche à peine plus d'un dieèe. Autrement dit, sur l'unité logique, il restait de la marge, beaucoup de marge. Sur la mémoire et la colle, il n'en restait quasiment plus. Donc la conclusion est aussi simple que contreintuitive. Dans l'histoire moderne de la course Alia, le véritable frein n'était pas l'intelligence par puce, mais la capacité à nourrir et à assembler cette intelligence. et forcément ça se ressent sur les coûts. La dépense totale en composant de ces quatre acteurs est passée d'environ 22 milliards de dollars en 2024 à 52 milliards de dollars en 2025 avec tenez-vous bien une accélération de 3 milliards par trimestre début 2024 à près de 17 milliards de dollars fin 2025. Et une fois qu'on a dit ça, ça ne vous surprendra pas d'apprendre qu'en réalité dans le coût de fabrication brute d'une Puilla, ce n'est pas le cerveau qui coûte le plus cher, mais la mémoire. La HBM à elle seule représentait déjà grosso modo la moitié du coût en 2024. Un an plus tard, elle pèse plus de 60 %. Prenez un GPU comme la B200 de Nvidia. Sur les quelques 6400 dollars nécessaires à sa fabrication, la mémoire et le packaging pèsent à eux seuls près des 2 tiers de la facture. Évidemment, Nvidia capte ensuite une marge énorme à la vente. Mais côté usine, ce qui explose, c'est bien la mémoire et le packaging. Et voilà. Finalement, le génie n'était pas si rare. C'est surtout la plomberie autour qu'il est. Alors attention, je ne dis pas que les unités logiques sont faciles à produire. Un GPU de pointe reste un monstre industriel. Mais les unités logiques s'inserent dans un marché beaucoup plus large. Smartphone, PC, serveur, électronique, haut de gamme. En surenchérissant, vous pouvez prendre la place un autre client. OK? Pour la HBM et le packaging, quand la capacité n'existe pas, le chèque ne crée pas magiquement des lignes de production. Maintenant, rien ne dit que cette hiérarchie restera figée. Avec les nouvelles générations de Pucia gravé en 3 voire 2 nanomè, la partie logique pourrait devenir un verrou bien plus important qu'aujourd'hui. Mais en tout cas, pour le moment et contrairement à ce que tout le monde pense, le verrou ce n'était pas lui. Et alors, pourquoi? Pourquoi est-il devenu plus difficile de nourrir et d'assembler une puce que de fabriquer son cerveau? Pour répondre à ça, il va falloir descendre. Le cerveau, l'unité logique, calcule à une vitesse vertigéneuse, mais à chaque instant, il a besoin qu'on lui livre des données fraîches. Et s'il doit attendre la livraison, sa puissance ne sert à rien. Il tourne dans le vide. C'est ce que l'on appelle le memory wall, le mur de la mémoire. La vraie difficulté pour une puce, ce n'est pas de penser, mais c'est de disposer d'assez de données qui arrivent suffisamment vite pour saturer sa capacité à calculer. La solution, c'est la HBM, High Bendw memory. Et l'idée derrière est simple. Au lieu de poser la mémoire loin du cerveau sur la carte, on l'empile, on construit des tours, 12 étages de puce mémoire, bientôt 16. Et on plante ces tours juste contre le cerveau car plus elles sont proches, plus elles sont hautes, plus elles nourrissent vite l'unité logique. Sauf que empiler, ben c'est plus facile à dire qu'à faire. Imaginez devoir bâtir une tour de 12 plaques de silicium, chacune plus fine qu'une feuille de papier. Il faut ensuite percer à travers les 12 des milliers de trous microscopiques pour les faire communiquer verticalement. Il faut également les souder les unes aux autres au mi près. Et bien évidemment, plus vous empilez, plus le rendement devient impitoyable avec les erreur à n'importe quel étage de la tour. Et c'est toute la valeur de la pile qui est menacée s'il y a une erreur à un de ces étages. Ça, on peut l'appeler le yield wall, le mur du rendement. Voilà pourquoi on ne peut pas simplement produire plus de HBM. Ce n'est pas une question de volonté, c'est une question de physique. Et maintenant la question qui tue qui sait faire ça? Et ben, il y a trois entreprises. Ouais, il y en a trois. SKX, le leader qui pèse à lui seul plus de la moitié du marché. Samsung et le fameux micron dont vous avez peut-être entendu parler dans la Toute la HBM de pointe dans le monde sort essentiellement de cette oligopole à trois TPT, trois entreprises et et elles sont à sec. Leur capacité est intégralement réservée pour 2026 et déjà largement pour 2027. Le président du groupe SK a même lâché que la pénurie pourrait durer jusqu'en 2030. Et ce n'est pas que lui. Un dirigeant de Micron a également déclarer que c'est la plus grande décalage entre l'offre et la demande qu'il ait vu en 25 ans de carrière. Donc les 90 % de hausse que votre RAM a pris en 3 mois est essentiellement d au fait que la HBM et la mémoire vive classique sortent toutes les deux des mêmes fabricants. Or, il y a un arbitrage qui se fait entre les deux au détriment de la RAM. Parce que oui, pour produire un wafer de HBM, un wafer, c'est la grande plaque de silicium dans laquelle on découpe les puces. Et bien, un fabricant brûle à peu près la capacité équivalente de trois wafers de mémoire classique. Donc quand SKX, Samsung et Micron basculent leurs usines vers la HBM parce que les marges sont bien plus grasses, ils produisent mécaniquement beaucoup moins de mémoire ordinaire, celle de votre PC, de nos téléphones, de votre console. Et figurez-vous que les acheteurs sont si désespérés qu'ils ne se contentent même plus d'attendre. Microsoft, Google et Amazon proposeraient carrément de financer eux-même l'agrandissement des usines de Sky. Des clients qui payent pour construire l'usine de leur propre fournisseur. Bref, la mémoire, c'est trois entreprises à sec et un mur physique qu'on ne franchit pas en claquant des doigts. On pourrait croire qu'on tient là le verrou le plus serré qui soit. trois entreprises, c'est déjà presque rien. Mais attendez de voir lorsque l'on descend encore d'un cran. Parce que pour le packaging, il n'y en a pas trois, il n'y en a qu'une. Le packaging, notre fameuse colle, à première vue, c'est l'étape la moins glamour de toute l'histoire. Le cerveau calcule, la mémoire nourrit et le packaging ne fait que coller les morceaux ensemble. Une formalité, une étape de finition, me direz-vous. C'est d'ailleurs comme ça que ça a été considéré pendant des années. Terrible erreur. Reprenons. Vous avez votre cerveau d'un côté, vos tours de HBM de l'autre. Si vous les posez bêtement sur une carte électronique classique comme dans un PC, les fils qui les relient sont trop espacés, trop lents. Toute la vitesse promise par la HBM est gâchée. Vous avez installé un château d'eau géant juste à côté de votre ville, mais le tuyau qui le raccorde est un tuyau d'arrosage. Le packaging, en réalité, ce n'est pas de la colle. C'est un pont qu'on appelle l'interposeur gravé de milliers de fils microscopiques. On vient poser le cerveau et les tours de mémoire dessus côte à côte et c'est ce pont qui laisse échanger des données à pleine vitesse pour votre unité de calcul. Cette technologie a un nom cow. Et justement fabriquer ce pont c'est un cauchemar parce que les puillas modernes sont énormes quand vous assemblez sur une même dalle un cerveau géant et plusieurs tours de mémoire. L'ensemble se met physiquement à gondoler sous l'effet de la chaleur. Il faut donc maîtriser cette déformation au micron près. Bref, on pensait que le plus dur était de fabriquer le cerveau. En réalité, il faut presque un deuxième doctorat pour réussir à le coller sans qu'il parte en carave. Et maintenant, même combat. Qui sait faire ça? Pour la mémoire, la réponse était trois entreprises. Pour le packaging, elle tient en un mot: TSMC. Alors oui, pour les taquin, je sais que TSMC en vrai c'est quatre mots pour Taiwan semiconductor Manufacturing Company mais FI continuons. Le Cowo, c'est une technologie maison du géant taïwanais. TSMC contrôle plus de la moitié du packaging avancé mondial et pour le très haut de gamme, les puces qui font tourner l'IA à de pointes, il en est quasiment le seul fournisseur sur Terre. Intel tente bien de pousser ses alternatives. Samsung avance également et Nvidia cherche à élargir sa chaîne d'approvisionnement avec des acteurs comme Amcore ou AS. Mais pour l'instant, le cœur du très haut de gamme passe exclusivement. Bah c'est TSMC. Alors oui, TSMC construit à toute vitesse. Sa capacité de cow doit passer de quelques milliers de wfers par mois fin 2024 à environ 130000 fin 2026. Sauf que ben c'est tout le problème. Nvidia aurait déjà réservé à lui seul environ 60 % de cette capacité pour les 2 années à venir. Le tuyau s'élargi de quatre fois, OK, mais le plus gros client a déjà mis la main sur l'essentiel du débit qui devait en sortir. Donc non, le packaging n'est pas une formalité, c'est un quasi monopole et toute l'industrie de l'IA de pointe dans le monde entier dépend de la capacité d'assemblage d'une seule entreprise sur une seule île qui connaît également deux trois petits sujets géopolitiques. Oh là, on pourrait croire qu'on a touché le fond, qu'on a soulevé toute la poussière planquée sous les tapis et qu'on ne peut pas faire plus concentrer qu'une seule entreprise. Et pourtant, il existe encore un niveau en dessous, un étage sous TMC, sous Sky, sous tout le monde. Parce que TSMC, aussi génial soit-elle, ne fabrique rien à partir de rien. Pour graver le cerveau, comme pour graver la mémoire, il faut une machine. Une machine capable de dessiner sur le silicium des détails plus fins que tout ce que l'œil humain pourra jamais voir. Cette machine, c'est la lithographie IUV. Elle est fabriquée par une seule entreprise au monde. Vous commencez à voir venir le coup, ASML, une société néerlandaise installée dans une petite ville que personne ne connaît, Veldoven. Et ce que fait cette machine relève quasiment de la magie noire. Pour graver des circuits, elle projette de la lumière, mais pas n'importe quelle lumière. Elle prend des gouttelettes d'éteint en fusion, les frappe avec des lasers des dizaines de milliers de fois par seconde et génère un éclair plus chaud que la surface du soleil. Cet éclair est guidé par des miroirs quasi parfaits pour tracer sur le silicium des traits 6000 fois plus fin qu'un fichu cheveux. Chaque machine est de la taille d'un bus pèse 200 tonnes et coûte autour de 150 millions de dollars. Et la nouvelle génération, le High NAV, grimpe déjà au-delà de 350 millions d'euros l'unité. Et il a fallu 30 ans de recherche pour en arriver là. 30 ans que personne nulle part n'a réussi à rattraper ou à copier. La course technologique la plus prometteuse de l'histoire moderne but à son point le plus profond sur un seul objet fabriqué par une seule entreprise dans une seule ville. Alors petite pause. Les technologies de production de l'industrie derrière Noia sont des sujets que je compte creuser sur cette chaîne car cela permet de comprendre pourquoi la Chine notamment n'est peut-être pas si près que ça de pouvoir rattraper les technologies américaines et étrangères sous Protectorat américain. En attendant, je vous propose de me le dire en commentaire et aussi de vous abonner sur Spotify Dieser ou Apple Podcast ou toutes les plateformes de podcast connues pour suivre les épisodes grand angle puisque je l'ai publie aussi là-bas. Et oui, votre aide serait bienvenue pour pousser les abonnés sur les podcasts pour les aider à décoller. Bien, remontons l'entonoir qu'on vient de descendre mais différemment cette fois. Tout en haut, le cerveau, les unités logiques, le silicium dont tout le monde parle, un marché large, beaucoup de vendeurs, de la marge, le génie finalement qui n'est pas si rare. En dessous, la mémoire, trois entreprises sur la planète à sec jusqu'en 2027. Encore en dessous le packaging, une seule société TSMC sur une seule île et tout au fond la machine ASML, un fournisseur unique dans une seule ville. À mesure qu'on descend vers ce qui compte vraiment, le nombre d'acteurs s'effondre. La course à LIA, ce n'est pas une pleine ouverte où 1000 concurrents affrontent, c'est un an au noir et plus on approche du fond, moins il y a de place pour la concurrence. Alors, on pourrait m'objecter une chose et Google dans tout cela? Et ben oui, Google a fait le choix le plus radical de tous. Ne pas acheter les unités logiques de Nvidia, mais concevoir les siennes. Ses propres puces, les fameux TPU avec une architecture différente. Une grille de calcul pensée pour réutiliser la donnée et solliciter la mémoire plus intelligemment. Et c'est vrai, c'est malin en plus d'être extrêmement intéressant et on sera amené à en reparler sur cette chaîne. Mais pour le moment, gardons en tête que la dernière génération de TPU embarque tout de même 8 tours HBM par plus. Elle est assemblée en coos et elle est gravée chez TSMC et tout ça bien y repose sur des machines à SM. Donc même Google qui doit être l'acteur le plus intégré verticalement de toute l'industrie a réussi à s'extraire de l'étage du cerveau mais pas des étages en dessous. L'entenonoir le tient lui aussi. Donc la prochaine fois qu'on vous demandera qui va gagner la course Alia, vous pourrez répondre que ce n'est pas celui qui a le plus gros cerveau, mais celui qui a la main dans la colle. Le packaging, la mémoire est sur la machine qui les fabrique. Et si vous voulez en apprendre plus sur ces enjeux de pouvoir au cœur même de la pyramide de l'IA, allez voir cette vidéo où je vous explique qu'il existe un type d'acteur encore bien plus puissant et déterminant KSML et TSMC réunis. M.

Sur le même sujet : IA