ENFR
8news

Tech • IA • Crypto

TodayMy briefingVideosTop articles 24hArchivesFavoritesMy topics

AI is quietly extorting you (and no one is talking about it)

AIGrand Angle NovaMay 31, 2026 at 07:00 AM17:56
Audio player
0:00 / 0:00

TL;DR

Rising demand for AI chips is driving a global memory and packaging bottleneck, quietly increasing consumer electronics prices through what some call an “AI tax.”

KEY POINTS

A hidden cost surge in everyday tech

Prices of standard components like RAM surged by up to 90% in early 2026, contributing to a nearly 20% increase in PC prices from manufacturers such as Dell, HP, and Lenovo. In smartphones, the effect is subtler: devices at the same price point now ship with reduced specifications, including less memory and downgraded features.

The emergence of an “AI tax”

Consumers are indirectly funding the AI boom without purchasing AI services themselves. The term “AI tax” has emerged in the United States to describe how supply constraints in key components ripple through the broader electronics market, raising costs across unrelated products.

The real bottleneck is not computing power

Contrary to popular belief, the limiting factor in AI hardware is not the GPU or compute unit. In 2025, major players including Nvidia, AMD, Google, and Amazon used only about 12% of global logic chip capacity, while consuming over 90% of advanced packaging and HBM memory supply.

Memory dominates chip costs

High-bandwidth memory (HBM) has become the most expensive component in AI chips, accounting for over 60% of manufacturing costs in 2025, up from roughly half the year before. For example, in Nvidia’s B200 GPU, memory and packaging together represent nearly two-thirds of production costs.

A supply chain controlled by few players

The global HBM market is dominated by just three companies: SK hynix, Samsung, and Micron. Their production capacity is already fully booked through 2026 and largely into 2027, with industry leaders warning shortages could persist until 2030.

Trade-offs reduce consumer memory supply

Producing HBM consumes significantly more resources than standard memory. Manufacturers shifting toward higher-margin AI memory effectively reduce output of conventional RAM, tightening supply for PCs, phones, and consoles.

Packaging: a critical and overlooked chokepoint

Advanced chip packaging, particularly CoWoS technology, is essential to connect processors and memory at high speed. This segment is dominated by TSMC, which controls most of the high-end capacity globally. Demand far exceeds supply despite rapid expansion.

TSMC’s constrained expansion

TSMC aims to scale advanced packaging capacity dramatically by 2026, yet Nvidia alone has reportedly secured around 60% of future output. This concentration reinforces supply bottlenecks across the industry.

A deeper dependency on a single supplier

Beneath chip production lies an even tighter constraint: lithography machines from ASML. These systems, costing up to €350 million per unit, are essential for manufacturing cutting-edge chips and are produced by a single company after decades of R&D.

The “memory wall” and physics limits

AI systems face a fundamental challenge known as the memory wall: compute units require massive, fast data flows to operate efficiently. Technologies like stacked HBM attempt to solve this, but manufacturing complexity and yield issues severely limit scalability.

Even tech giants cannot escape the bottleneck

Companies like Google, despite designing custom chips such as TPUs, remain dependent on the same constrained ecosystem: HBM suppliers, TSMC packaging, and ASML lithography tools.

CONCLUSION

The global AI race is increasingly constrained not by processing power but by scarce memory, packaging capacity, and specialized manufacturing tools, concentrating power among a handful of suppliers and quietly raising costs across the entire technology market.

Full transcript

Quand avez-vous acheté pour la dernière fois un produit d'intelligence artificielle? Peut-être jamais ou peut-être un abonnement à chatt à 20 dollars une fois par curiosité. Et pourtant au fond peu importe car depuis le début de l'année, Lia vous a déjà probablement fait des poches, même si vous ne lui avez jamais rien acheté en direct. Prenez la mémoire vive, la RAM, un composant banal qu'on trouve absolument dans tous les ordinateurs de la planète. Premier trimestre, son prix abondit de 90 % par rapport à la fin 2025. Chez Antimateur, on a cessé de revoir tous nos prix à la hausse en partie à cause de cela depuis le début de l'année. Et les conséquences ne se font évidemment pas attendre. Les grands fabricants comme Dell, HP ou Lenovo ont prévenu leurs clients. Les ordinateurs m'ont coûté quasin 20 % plus cher. Côté smartphone, c'est plus sour noir. Le téléphone à 600 € de 2026 ressemble à s méprendre à celui de 2025, mais avec moins de mémoire, un écran parfois plus terne, un appareil photo discrètement revu à la baisse, vous payez la même chose mais vous en avez moins. Aux États-Unis, on a déjà trouvé un nom pour ça. On appelle ça la AI taxe, la taxe de l'IA. un impôt que vous réglez sans jamais avoir acheté le moindre abonnement à un quelconque LM. Alors, que se passe-t-il? Et bien, les puces, messieurs, mesdames, les puces qui font tourner chaque modèle dévore la mémoire à une vitesse telle qu'il n'en reste tout simplement plus assez pour vous. Les puia a, on en parle partout dans nos vidéos, dans les médias, dans chaque interview, chaque conférence. Bref, c'est le sujet au point qu'on a tous fini par se représenter une puilla comme un petit carré noir magique posé sur une grosse carte. Spoiler, c'est beaucoup plus compliqué que ça. Et c'est tout le problème. Presque personne ne sait vraiment ce qu'il y a à l'intérieur. Alors que c'est exactement làdedans, dans ce petit carré que tout le monde fixe sans jamais le voir, que se joue la guerre des milliards de dollars de l'intelligence artificielle. En vue de l'extérieur, une puilla, c'est un rectangle, un bloc sombre lissé posé sur une grande carte verte. On dirait un objet unique sorti d'un seul moule. Mais comme je tiens à vulgariser la chose, on va voir ça différemment. Une pucilla n'est pas un objet, c'est un assemblage. Mieux, c'est une équipe. Et comme dans toute équipe, chaque membre a un rôle précis et aucun ne fait le travail des autres. Pour faire tourner UNIA, il faut réunir grosso modo trois choses. La première, c'est le cerveau qui calcule. C'est la partie qu'on appelle l'unité logique, le GPU ou plus largement l'accélérateur IA. un morceau de silicium sur lequel sont gravés une foultitude de transistors qui exécutent chaque seconde des milliards de petites opérations logique. Parce qu'au fond, une ce n'est jamais que ça. Des montagnes d'opérations logiques basiques que l'on enchaîne les unes après les autres. Et ce GPU c'est la star, c'est la pièce dont tout le monde parle, celle qu'on imagine spontanément quand on dit Pusilla. La deuxième partie c'est une sorte de garde mangé qui nourrit le cerveau, la mémoire. Parce que oui, un cerveau génial mais affamé ne sert strictement à rien, que ce soit le vôtre ou celui du NIA. Et le problème ce n'est pas seulement d'avoir de la nourriture en stock, c'est aussi de la servir assez vite. Le cœur de calcul peut-être monstrueusement puissant mais s'il doit attendre des données qui arrivent trop lentement, toute cette puissance se retrouve sous-utilisée. C'est à cela que sert la mémoire. Ce sont des espaces de stockage empilés au plus près du cerveau de la puce dont le rôle est simple, l'alimenter en donné en continu à très haute vitesse pour qu'il ne perde jamais une fraction de secondes à attendre. La troisième et dernière partie, c'est ce qu'on pourrait considérer comme une sorte de colle qui fait de tout ça un seul organisme. C'est ce que l'on appelle le packaging. Sans lui, vous avez un cerveau d'un côté, un garde manger de l'autre, posé côte à côte mais étranger l'un à l'autre. Cerveau, garde manger et colle et autour un peu d'intendance, le support, la carte et voilà, vous avez votre puce. Si une seule de ces trois pièces vient à manquer, toute la puce s'arrête. C'est la loi du maillon faible. Une chaîne est aussi performante que son élément le plus faible. Gardez bien cette voix en tête parce queintuitivement, on se dit que la course Alia, c'est une course au cerveau le plus intelligent, donc à la meilleure unité logique. Et ben sur le papier, si effectivement c'est intuitif, c'est absolument pas le cas. Alors, prenons un peu de moteur. Si c'est intuitif au premier abord, c'est bien parce que les meilleurs modèles tournent sur les meilleures puces. Et les meilleures puces, c'est celles qui ont le cerveau le plus puissant. Nvidia, CGPU, leurs unités logiques. Sauf qu'on a aujourd'hui les chiffres pour vérifier et il raconte une toute autre histoire. EPOCI, un organisme de recherche que j'invite vivement les plus curieux d'entre vous à suivre, à reconstituer trimestre après trimestre ce que les quatre grands concepteurs de puce, Nvidia, AMD, Google et Amazon, ont consommé pour chaque composant en 2025. L'année dernière, ces quatre acteurs ont absorbé plus de 90 % de toute la capacité mondiale de packaging, plus de 90 % de toute la mémoire HBM et le cerveau, la fameuse unité logique dans tout ça, et ben environ 12 % seulement. Rendez-vous compte, côté mémoire et côté packaging, les quatre géants raflent quasiment tout ce qui existe sur la planète. Côté cerveau, il pioche à peine plus d'un dieèe. Autrement dit, sur l'unité logique, il restait de la marge, beaucoup de marge. Sur la mémoire et la colle, il n'en restait quasiment plus. Donc la conclusion est aussi simple que contreintuitive. Dans l'histoire moderne de la course Alia, le véritable frein n'était pas l'intelligence par puce, mais la capacité à nourrir et à assembler cette intelligence. et forcément ça se ressent sur les coûts. La dépense totale en composant de ces quatre acteurs est passée d'environ 22 milliards de dollars en 2024 à 52 milliards de dollars en 2025 avec tenez-vous bien une accélération de 3 milliards par trimestre début 2024 à près de 17 milliards de dollars fin 2025. Et une fois qu'on a dit ça, ça ne vous surprendra pas d'apprendre qu'en réalité dans le coût de fabrication brute d'une Puilla, ce n'est pas le cerveau qui coûte le plus cher, mais la mémoire. La HBM à elle seule représentait déjà grosso modo la moitié du coût en 2024. Un an plus tard, elle pèse plus de 60 %. Prenez un GPU comme la B200 de Nvidia. Sur les quelques 6400 dollars nécessaires à sa fabrication, la mémoire et le packaging pèsent à eux seuls près des 2 tiers de la facture. Évidemment, Nvidia capte ensuite une marge énorme à la vente. Mais côté usine, ce qui explose, c'est bien la mémoire et le packaging. Et voilà. Finalement, le génie n'était pas si rare. C'est surtout la plomberie autour qu'il est. Alors attention, je ne dis pas que les unités logiques sont faciles à produire. Un GPU de pointe reste un monstre industriel. Mais les unités logiques s'inserent dans un marché beaucoup plus large. Smartphone, PC, serveur, électronique, haut de gamme. En surenchérissant, vous pouvez prendre la place un autre client. OK? Pour la HBM et le packaging, quand la capacité n'existe pas, le chèque ne crée pas magiquement des lignes de production. Maintenant, rien ne dit que cette hiérarchie restera figée. Avec les nouvelles générations de Pucia gravé en 3 voire 2 nanomè, la partie logique pourrait devenir un verrou bien plus important qu'aujourd'hui. Mais en tout cas, pour le moment et contrairement à ce que tout le monde pense, le verrou ce n'était pas lui. Et alors, pourquoi? Pourquoi est-il devenu plus difficile de nourrir et d'assembler une puce que de fabriquer son cerveau? Pour répondre à ça, il va falloir descendre. Le cerveau, l'unité logique, calcule à une vitesse vertigéneuse, mais à chaque instant, il a besoin qu'on lui livre des données fraîches. Et s'il doit attendre la livraison, sa puissance ne sert à rien. Il tourne dans le vide. C'est ce que l'on appelle le memory wall, le mur de la mémoire. La vraie difficulté pour une puce, ce n'est pas de penser, mais c'est de disposer d'assez de données qui arrivent suffisamment vite pour saturer sa capacité à calculer. La solution, c'est la HBM, High Bendw memory. Et l'idée derrière est simple. Au lieu de poser la mémoire loin du cerveau sur la carte, on l'empile, on construit des tours, 12 étages de puce mémoire, bientôt 16. Et on plante ces tours juste contre le cerveau car plus elles sont proches, plus elles sont hautes, plus elles nourrissent vite l'unité logique. Sauf que empiler, ben c'est plus facile à dire qu'à faire. Imaginez devoir bâtir une tour de 12 plaques de silicium, chacune plus fine qu'une feuille de papier. Il faut ensuite percer à travers les 12 des milliers de trous microscopiques pour les faire communiquer verticalement. Il faut également les souder les unes aux autres au mi près. Et bien évidemment, plus vous empilez, plus le rendement devient impitoyable avec les erreur à n'importe quel étage de la tour. Et c'est toute la valeur de la pile qui est menacée s'il y a une erreur à un de ces étages. Ça, on peut l'appeler le yield wall, le mur du rendement. Voilà pourquoi on ne peut pas simplement produire plus de HBM. Ce n'est pas une question de volonté, c'est une question de physique. Et maintenant la question qui tue qui sait faire ça? Et ben, il y a trois entreprises. Ouais, il y en a trois. SKX, le leader qui pèse à lui seul plus de la moitié du marché. Samsung et le fameux micron dont vous avez peut-être entendu parler dans la Toute la HBM de pointe dans le monde sort essentiellement de cette oligopole à trois TPT, trois entreprises et et elles sont à sec. Leur capacité est intégralement réservée pour 2026 et déjà largement pour 2027. Le président du groupe SK a même lâché que la pénurie pourrait durer jusqu'en 2030. Et ce n'est pas que lui. Un dirigeant de Micron a également déclarer que c'est la plus grande décalage entre l'offre et la demande qu'il ait vu en 25 ans de carrière. Donc les 90 % de hausse que votre RAM a pris en 3 mois est essentiellement d au fait que la HBM et la mémoire vive classique sortent toutes les deux des mêmes fabricants. Or, il y a un arbitrage qui se fait entre les deux au détriment de la RAM. Parce que oui, pour produire un wafer de HBM, un wafer, c'est la grande plaque de silicium dans laquelle on découpe les puces. Et bien, un fabricant brûle à peu près la capacité équivalente de trois wafers de mémoire classique. Donc quand SKX, Samsung et Micron basculent leurs usines vers la HBM parce que les marges sont bien plus grasses, ils produisent mécaniquement beaucoup moins de mémoire ordinaire, celle de votre PC, de nos téléphones, de votre console. Et figurez-vous que les acheteurs sont si désespérés qu'ils ne se contentent même plus d'attendre. Microsoft, Google et Amazon proposeraient carrément de financer eux-même l'agrandissement des usines de Sky. Des clients qui payent pour construire l'usine de leur propre fournisseur. Bref, la mémoire, c'est trois entreprises à sec et un mur physique qu'on ne franchit pas en claquant des doigts. On pourrait croire qu'on tient là le verrou le plus serré qui soit. trois entreprises, c'est déjà presque rien. Mais attendez de voir lorsque l'on descend encore d'un cran. Parce que pour le packaging, il n'y en a pas trois, il n'y en a qu'une. Le packaging, notre fameuse colle, à première vue, c'est l'étape la moins glamour de toute l'histoire. Le cerveau calcule, la mémoire nourrit et le packaging ne fait que coller les morceaux ensemble. Une formalité, une étape de finition, me direz-vous. C'est d'ailleurs comme ça que ça a été considéré pendant des années. Terrible erreur. Reprenons. Vous avez votre cerveau d'un côté, vos tours de HBM de l'autre. Si vous les posez bêtement sur une carte électronique classique comme dans un PC, les fils qui les relient sont trop espacés, trop lents. Toute la vitesse promise par la HBM est gâchée. Vous avez installé un château d'eau géant juste à côté de votre ville, mais le tuyau qui le raccorde est un tuyau d'arrosage. Le packaging, en réalité, ce n'est pas de la colle. C'est un pont qu'on appelle l'interposeur gravé de milliers de fils microscopiques. On vient poser le cerveau et les tours de mémoire dessus côte à côte et c'est ce pont qui laisse échanger des données à pleine vitesse pour votre unité de calcul. Cette technologie a un nom cow. Et justement fabriquer ce pont c'est un cauchemar parce que les puillas modernes sont énormes quand vous assemblez sur une même dalle un cerveau géant et plusieurs tours de mémoire. L'ensemble se met physiquement à gondoler sous l'effet de la chaleur. Il faut donc maîtriser cette déformation au micron près. Bref, on pensait que le plus dur était de fabriquer le cerveau. En réalité, il faut presque un deuxième doctorat pour réussir à le coller sans qu'il parte en carave. Et maintenant, même combat. Qui sait faire ça? Pour la mémoire, la réponse était trois entreprises. Pour le packaging, elle tient en un mot: TSMC. Alors oui, pour les taquin, je sais que TSMC en vrai c'est quatre mots pour Taiwan semiconductor Manufacturing Company mais FI continuons. Le Cowo, c'est une technologie maison du géant taïwanais. TSMC contrôle plus de la moitié du packaging avancé mondial et pour le très haut de gamme, les puces qui font tourner l'IA à de pointes, il en est quasiment le seul fournisseur sur Terre. Intel tente bien de pousser ses alternatives. Samsung avance également et Nvidia cherche à élargir sa chaîne d'approvisionnement avec des acteurs comme Amcore ou AS. Mais pour l'instant, le cœur du très haut de gamme passe exclusivement. Bah c'est TSMC. Alors oui, TSMC construit à toute vitesse. Sa capacité de cow doit passer de quelques milliers de wfers par mois fin 2024 à environ 130000 fin 2026. Sauf que ben c'est tout le problème. Nvidia aurait déjà réservé à lui seul environ 60 % de cette capacité pour les 2 années à venir. Le tuyau s'élargi de quatre fois, OK, mais le plus gros client a déjà mis la main sur l'essentiel du débit qui devait en sortir. Donc non, le packaging n'est pas une formalité, c'est un quasi monopole et toute l'industrie de l'IA de pointe dans le monde entier dépend de la capacité d'assemblage d'une seule entreprise sur une seule île qui connaît également deux trois petits sujets géopolitiques. Oh là, on pourrait croire qu'on a touché le fond, qu'on a soulevé toute la poussière planquée sous les tapis et qu'on ne peut pas faire plus concentrer qu'une seule entreprise. Et pourtant, il existe encore un niveau en dessous, un étage sous TMC, sous Sky, sous tout le monde. Parce que TSMC, aussi génial soit-elle, ne fabrique rien à partir de rien. Pour graver le cerveau, comme pour graver la mémoire, il faut une machine. Une machine capable de dessiner sur le silicium des détails plus fins que tout ce que l'œil humain pourra jamais voir. Cette machine, c'est la lithographie IUV. Elle est fabriquée par une seule entreprise au monde. Vous commencez à voir venir le coup, ASML, une société néerlandaise installée dans une petite ville que personne ne connaît, Veldoven. Et ce que fait cette machine relève quasiment de la magie noire. Pour graver des circuits, elle projette de la lumière, mais pas n'importe quelle lumière. Elle prend des gouttelettes d'éteint en fusion, les frappe avec des lasers des dizaines de milliers de fois par seconde et génère un éclair plus chaud que la surface du soleil. Cet éclair est guidé par des miroirs quasi parfaits pour tracer sur le silicium des traits 6000 fois plus fin qu'un fichu cheveux. Chaque machine est de la taille d'un bus pèse 200 tonnes et coûte autour de 150 millions de dollars. Et la nouvelle génération, le High NAV, grimpe déjà au-delà de 350 millions d'euros l'unité. Et il a fallu 30 ans de recherche pour en arriver là. 30 ans que personne nulle part n'a réussi à rattraper ou à copier. La course technologique la plus prometteuse de l'histoire moderne but à son point le plus profond sur un seul objet fabriqué par une seule entreprise dans une seule ville. Alors petite pause. Les technologies de production de l'industrie derrière Noia sont des sujets que je compte creuser sur cette chaîne car cela permet de comprendre pourquoi la Chine notamment n'est peut-être pas si près que ça de pouvoir rattraper les technologies américaines et étrangères sous Protectorat américain. En attendant, je vous propose de me le dire en commentaire et aussi de vous abonner sur Spotify Dieser ou Apple Podcast ou toutes les plateformes de podcast connues pour suivre les épisodes grand angle puisque je l'ai publie aussi là-bas. Et oui, votre aide serait bienvenue pour pousser les abonnés sur les podcasts pour les aider à décoller. Bien, remontons l'entonoir qu'on vient de descendre mais différemment cette fois. Tout en haut, le cerveau, les unités logiques, le silicium dont tout le monde parle, un marché large, beaucoup de vendeurs, de la marge, le génie finalement qui n'est pas si rare. En dessous, la mémoire, trois entreprises sur la planète à sec jusqu'en 2027. Encore en dessous le packaging, une seule société TSMC sur une seule île et tout au fond la machine ASML, un fournisseur unique dans une seule ville. À mesure qu'on descend vers ce qui compte vraiment, le nombre d'acteurs s'effondre. La course à LIA, ce n'est pas une pleine ouverte où 1000 concurrents affrontent, c'est un an au noir et plus on approche du fond, moins il y a de place pour la concurrence. Alors, on pourrait m'objecter une chose et Google dans tout cela? Et ben oui, Google a fait le choix le plus radical de tous. Ne pas acheter les unités logiques de Nvidia, mais concevoir les siennes. Ses propres puces, les fameux TPU avec une architecture différente. Une grille de calcul pensée pour réutiliser la donnée et solliciter la mémoire plus intelligemment. Et c'est vrai, c'est malin en plus d'être extrêmement intéressant et on sera amené à en reparler sur cette chaîne. Mais pour le moment, gardons en tête que la dernière génération de TPU embarque tout de même 8 tours HBM par plus. Elle est assemblée en coos et elle est gravée chez TSMC et tout ça bien y repose sur des machines à SM. Donc même Google qui doit être l'acteur le plus intégré verticalement de toute l'industrie a réussi à s'extraire de l'étage du cerveau mais pas des étages en dessous. L'entenonoir le tient lui aussi. Donc la prochaine fois qu'on vous demandera qui va gagner la course Alia, vous pourrez répondre que ce n'est pas celui qui a le plus gros cerveau, mais celui qui a la main dans la colle. Le packaging, la mémoire est sur la machine qui les fabrique. Et si vous voulez en apprendre plus sur ces enjeux de pouvoir au cœur même de la pyramide de l'IA, allez voir cette vidéo où je vous explique qu'il existe un type d'acteur encore bien plus puissant et déterminant KSML et TSMC réunis. M.

More from AI