
Tech • IA • Crypto
L’intelligence artificielle n’est pas une technologie unique, mais un écosystème en expansion de systèmes distincts — tels que les LLMs, les générateurs d’images et les modèles du monde émergents — dont les différences sont largement mal comprises.
Le terme « IA » regroupe plusieurs technologies fondamentalement différentes, avec des mécanismes et des usages distincts. La confusion persiste chez les décideurs, les éducateurs et les médias, qui traitent souvent tous les systèmes comme interchangeables. Cela entraîne des critiques mal appliquées, comme les biais ou les hallucinations, à des systèmes qui fonctionnent pourtant de manière très différente.
Les Large Language Models (LLMs) comme ChatGPT, Gemini et Mistral génèrent du texte token par token à partir de motifs appris sur de vastes ensembles de données. Leurs sorties sont probabilistes et façonnées par le contexte préalable, y compris des instructions système cachées. Bien qu’on dise souvent qu’ils ne « comprennent » pas, ils peuvent produire un raisonnement cohérent en construisant progressivement leurs réponses.
Les soi-disant hallucinations des LLMs sont mieux comprises comme des continuations cohérentes mais incorrectes, plutôt que des inventions aléatoires. Les biais observés reflètent des motifs présents dans les données d’entraînement: les biais sociétaux sont reproduits, non créés par le modèle. Ces problèmes sont propres aux LLMs et ne s’appliquent pas directement aux autres types d’IA.
Les nouvelles capacités comme le raisonnement et le comportement agentique ne constituent pas de nouvelles espèces d’IA, mais des extensions des LLMs. Le raisonnement implique une délibération interne basée sur des tokens avant la réponse, tandis que les systèmes agentiques déclenchent des outils ou actions externes via des sorties structurées comme du code. Malgré une apparence plus autonome, ils reposent sur le même processus de génération de texte.
Les modèles génératifs pour l’image et la vidéo fonctionnent par diffusion, transformant du bruit en visuels structurés. Contrairement aux LLMs, ils ne prédisent pas de tokens et ne raisonnent pas via le langage. Leur entraînement repose fortement sur des jeux de données annotés, souvent avec intervention humaine pour identifier objets et relations.
Les systèmes d’IA pour la génération de voix et de musique combinent des éléments des LLMs et des modèles de diffusion. Ils produisent des séquences de tokens audio tout en affinant la cohérence du résultat. Cette nature hybride les distingue des systèmes purement textuels ou visuels.
Les plateformes modernes intègrent plusieurs types d’IA dans une seule interface, créant des systèmes multimodaux. Par exemple, un chatbot peut interpréter une demande, générer un prompt, puis déléguer la création d’image à un autre modèle. Cette intégration masque la diversité technologique et renforce l’illusion d’une IA unique.
Les robots avancés reposent sur des systèmes Vision-Language-Action (VLA) qui fusionnent perception, raisonnement et mouvement. Ils intègrent un raisonnement de type LLM, la compréhension d’images et de nouveaux jeux de données centrés sur les gestes humains, souvent collectés via des démonstrations réelles.
Une nouvelle classe d’IA, appelée modèles du monde, vise à prédire l’évolution des environnements physiques dans le temps. Plutôt que de générer du texte ou des images, ces systèmes modélisent les transitions d’état du monde réel, comme le mouvement sous l’effet de la gravité. Des chercheurs comme Yann LeCun les considèrent comme essentiels pour les avancées futures, notamment en robotique.
La trajectoire de l’IA pointe vers la combinaison de plusieurs systèmes plutôt que le remplacement de l’un par un autre. Les LLMs, les modèles de diffusion et les modèles du monde devraient fonctionner ensemble, permettant à des systèmes de converser, percevoir, agir et anticiper dans des environnements complexes.
Comprendre l’IA comme un ensemble de technologies distinctes mais convergentes est essentiel pour suivre son évolution rapide et éviter les idées fausses sur ses capacités et ses risques.