ENFR
8news

Tech • IA • Crypto

TodayMy briefingVideosTop articles 24hArchivesFavoritesMy topics

Hermes Desktop and Gemma 4 12B, local and free AI system!

AIRenaud DékodeJune 7, 2026 at 11:57 AM1:20:40
Audio player
0:00 / 0:00

TL;DR

A new combination of local AI tools and lightweight models is enabling users to run powerful, private, and low-cost agent-based systems directly on personal computers.

KEY POINTS

Shift from cloud AI to local execution

Traditional AI use relies on cloud platforms like OpenAI or Anthropic, where users interact through paid subscriptions or APIs. These systems process requests in remote data centers, charging either fixed fees or usage-based costs tied to token consumption. This model also requires sending potentially sensitive data خارج the user’s device, raising privacy and sovereignty concerns.

Emergence of lightweight local models

A new generation of compact models, notably Gemma 4 12B from Google, is changing this dynamic. With 12 billion parameters, it can run on consumer-grade hardware with around 16 GB of VRAM, compared to large-scale models requiring hundreds of gigabytes. Despite its smaller size, it supports reasoning, multimodal input, and agent-like behaviors.

LM Studio simplifies local deployment

Tools like LM Studio provide a user-friendly layer to download, install, and run AI models locally. Instead of complex command-line setups, users can fetch models from repositories and execute them directly on their machines. This software effectively replaces cloud inference by handling model loading and response generation on-device.

Rise of agent orchestration systems

Beyond simple chat interfaces, agent orchestration introduces systems where multiple AI agents collaborate. A central “orchestrator” agent decomposes tasks into subtasks, assigns them to specialized agents, and aggregates results. This enables complex workflows such as email drafting, scheduling, or data analysis to run semi-autonomously.

Integration with personal data and tools

These systems can connect to local files, directories, and applications, forming structured knowledge bases. For example, user data can be organized into folders for emails, documents, or projects, allowing AI agents to access and update information continuously. This creates evolving, personalized AI assistants that learn from ongoing use.

Hermes Agent as a local orchestration interface

Hermes Agent exemplifies this new approach by combining orchestration, tool integration, and user control in a desktop environment. It supports “skills” such as content analysis, coding, note management, and integrations with tools like Obsidian, Notion, or web services. It also allows hybrid setups where local models handle most tasks while cloud models assist selectively.

Privacy and cost advantages

Running AI locally eliminates recurring subscription fees and minimizes data exposure. Users retain full control over their information, avoiding transmission to external servers. This model is particularly attractive for individuals, small businesses, and organizations handling sensitive data.

Hybrid flexibility remains possible

While local models handle many tasks, systems can still connect to external APIs when needed. For instance, more powerful cloud models can be invoked for complex subtasks, while routine operations remain local. This hybrid model balances performance, cost, and privacy.

Lower technical barriers

Recent tools reduce the need for programming expertise. Installing and configuring local AI systems is becoming accessible to non-technical users, marking a shift from developer-centric workflows to mainstream adoption.

CONCLUSION

The convergence of efficient local models and orchestration tools signals a major shift toward decentralized AI, giving users greater control, lower costs, and increasingly capable personal automation systems.

Full transcript

Bonjour les amis. Deux bangers viennent de sortir ces dernières heures et il s'avère que si on les associe l'un avec l'autre, on a une potion magique dont vous allez me donner des nouvelles. Alors pourquoi pas un petit tuto comme ça enregistré, pas en live pour une fois, ce sera monté pour vous expliquer ben la recette de cette potion magique qui devrait beaucoup beaucoup vous plaire. C'est beaucoup moins technique qu'avant en plus avec ce que je vais pouvoir vous montrer et vous expliquer. Et ça devrait rouler comme sur des roulettes. La garantie de ce que vous aurez après et bien des systèmes d'agents IA orchestrés qui apprennent avec vous, qui sont votre assistant au quotidien qui gagnent des capacités tous les jours et qui sont de plus en plus balaises pour vous accompagner dans votre boulot. En plus, le fait d'avoir tout ça en local, vos données ne partent plus à l'extérieur. Vous n'avez plus besoin d'envoyer de la data au gros modèle DIIA chez les méchants américains. Et 3è volet, bah tout ça gratuitement. Hm, ça a l'air totalement intéressant ce truclà. Alors, je vais vous expliquer le principe de fonctionnement des nouveaux systèmes d'orchestration agentique en comparaison à l'utilisation assez classique qu'on a de l'intelligence artificielle. Ensuite, je vais vous expliquer Hermes et Jun et puis je vais vous montrer ce qu'il est capable de proposer maintenant et qui va grandement vous simplifier la vie. Et puis je vous montrerai le côté Gema 412B, ce nouveau modèle d'intelligence artificielle qui a plein d'intérêt à mon avis dans tous les sens pour vous et pour plein de gens. Donc vous irez répéter, vous irez partager cette vidéo un petit peu partout autour de vous he gardez pas les recettes de potion magique pour vous, il faut les partager à tout le monde. Et enfin bah on verra comment l'ensemble de tout ça bah va pouvoir vous apporter un système absolument dingo avec toutes les bonnes choses dont je vous ai parlé tout à l'heure. Alors on va eurodater cette vidéo. Si les explications vous intéressent pas, vous sautez directement à la suite. Bref, vous connaissez sur YouTube les petits euros d'attage, vous butinez ça comme vous voulez. Ça peut être cool pour moi. Par contre, si vous regarder la vidéo quand même jusqu'à la fin, si vous lâchez un petit pouce en l'air, un abonnement, un activite cloche, un commentaire, c'est peut-être le mieux, c'est ce que je préfère. N'hésitez pas à faire ça pour donner de la force à ce contenu pour que tout le monde bah puisse en avoir connaissance et profiter de cette petite dinguerie. Alors, commençons par nous expliquer les choses. Comment marche l'interrogation de l'intelligence artificielle aujourd'hui? Et bien, ce qu'on connaît aujourd'hui, tiens, je vais mettre à dessiner ça, à faire de de la nouveauté, vous allez pas être déçu du voyage. Comment ça fonctionne LIA aujourd'hui? Bah, vous avez votre ordinateur, voilà, hop, là, il est là. votre petit PC qui va directement afficher un site web ici. Site web qui s'avère être celui d'un des géant de l'intelligence artificielle comme par exemple chat GPT ou et cetera et cetera. Ce géant de l'intelligence artificielle, il va vous proposer quelque chose qui va être sous sur abonnement. Ça ça coûte des sous. Voilà, vous allez payer un abonnement à 20 balles à Chat GPT par exemple. Cet abonnement à 20 balles à Chat GPT, il va vous permettre d'avoir tout un tas de fonctionnalités dans ce cet outil qui est une interface conversationnelle avec eu un modèle d'intelligence artificielle, un ou plusieurs modèles d'intelligence artificielle. Comprenez bien, la Croix-Rouge est à sa place, que c'est ça que vous payez. Derrière chat GPT sur abonnement, il y a Open par exemple, c'est la même chose chez les autres hein. Donc open c'est quoi? est une gigantesque boîte qui a dans ces gros data centers des modèles d'intelligence artificielle. Lia, elle est ici. Donc cette intelligence artificielle là et bien elle discute avec l'interface et en fait vous payez tout ça sur abonnement. Alors certains de ces géants commencent à se dire "Ben quand on utilise le chat GPT en mode gratuit ou en mode abonnement puis qu'on l'utilise beaucoup beaucoup, ben ça fait tourner beaucoup beaucoup les serveurs de chez Open AI. Ça nous coûte des ronds pour des gens qui payent pas forcément à la hauteur. Bon, en même temps, c'est censé être compensé pardon par tous ceux qui payent 20 balles alors qu'ils utilisent très très peu l'A. Le grand public n'a pas conscience de toute cette partie haute ici. Le grand public se dit je paye 20 balles, j'ai le chat GPT, je suis content. Mais c'est pas comme ça que ça fonctionne. Ça fonctionne par token. L'inférence gérée par les data centers de ces géants de l'intelligence artificielle par token qui vous envoie parce que vous leur donnez des tokens en entrée. Une question, il vous donnent des tokens en sortie. Bah la réponse à votre question. C'est choses qui transitent dans les deux sens. Bah c'est ça qu'en fait coûte de coûte des sous aux géants de l'intelligence artificielle et c'est ça qui vous font payer. Tout le monde fait de cette façon-là et pas grand monde sait qu'on peut faire différemment. Alors l'étape 2 du truc quand on a un petit peu conscience des choses, c'est qu'on connaît l'utilisation de l'intelligence artificielle sous forme d'API. Une API, c'est quoi? Bah c'est un format d'échange direct pour interroger directement un service en ligne. Donc en gros cette phase que vous voyez ici au milieu, l'abonnement chat GPT, bah en fait il y en a pas tant besoin. Vous pouvez très bien imaginer ici sur votre PC avoir un logiciel, avoir une interface, avoir quelque chose que vous installez ou accéder directement, voir faire appel à un service tiers, un outil d'automatisation, n'importe quoi qui utilise Li mais sans passer par un abonnement à 20 balles. Directement ici, hop là, sous forme d'API qui va dans les deux sens. Voilà. Euh pour interroger les modèles qui se trouvent sur les data centers. Dans ce cas-là, les amis, vous ne payez pas d'abonnement mais vous payez quand même parce que ça fait aussi tourner euh les data centers des géants de l'intelligence artificielle qui dépensent plein d'énergie et plein de sous. Donc vous payez mais vous me payez cette fois-ci à l'usage. Donc si vous avez un usage gigantesque de l'intelligence artificielle, ça peut valoir le coup de passer par un abonnement. Mais un abonnement, bah vous êtes contraint à l'interface que Lia vous propose ou le ou Open AI vous propose. Alors que si vous faites des trucs un petit peu personnalisé, si vous intégrez ça dans quelque chose plutôt que d'utiliser chat GPT, bah vous avez ou si vous avez un usage assez restreint de l'intelligence artificielle pour des raisons économiques, vaudrait mieux passer par API parce que vous avez très peu de millions de tokens générés tous les mois et ça va vous coûter 2,50 € peut-être. Bon, si vous avez un usage super gigantesque de Lia, et ben là aussi ça peut valoir le coup de passer par la pay même si vous allez raquer à l'usage, mais ça va coûter probablement moins cher et vous allez pouvoir ajuster ben la consommation que vous avez directement en utilisant les modèles. Ça les amis, c'est ce que allez, on va dire les un peu geek connaissent, l'utilisation de l'IA par API à tel point que bah on pourrait se demander pourquoi on utiliserait pas directement l'API depuis bah une interface qu'on créerait nous. Bon bah c'est un truc qu'on a fait sachez-le. Euh je dis on parce que je suis pas tout seul sur la chaîne Renault Descode. Si vous nous suivez euh c'est très cool. Si vous nous découvrez, hop un petit abonnement activiting. Si vous nous suivez, bah vous savez qu'on a un site web www.renau-dcode.fr euh qui est une communauté. C'est un site communautaire où on partage tout un tas de choses pour nous faire progresser dans ce monde de l'IA où il y a trop de choses pour être digéré. Donc on les digère ensemble. Et sur ce site là et bien vous allez trouver, je vais vous l'afficher à l'écran. vous allez trouver euh différentes ressources et différents partages. Et parmi les choses qu'on fait, bah parfois on fait des lives privés où on bricole des trucs. Ça c'est dans le club pour apprendre lire et cetera et cetera. Je vous passe les détails, vous irez découvrir si ça vous intéresse. C'est libre ouvert gratuit le site hein, vous n'hésitez pas. Par contre, il y a une partie sur abonnement qui vous permet d'avoir toutes les formations, les événements privés, les partages de projets, le réseutage et tout ça. Vous découvrirez. Je vous dis ça parce que nous avons développé un outil qui s'appelle Kiro que vous pouvez récupérer d'ailleurs en ligne. Vous allez sur le site de l'émission, c'est libre ouvert gratuit. Vous allez sur la page Kiro, ici dans le menu de gauche, vous comprenez un petit peu ce que c'est. C'est une interface magique qui vous permet d'accéder à plein plein plein d'intelligence artificielle avec beaucoup plus de fonctionnalité que ce que vous avez via un chat GPT par exemple et surtout sans avoir à payer aucun abonnement sans service tiers et cetera et cetera. Comment ça fonctionne Kiro? Ça fonctionne sur ce fameux cette fameuse logique d'API. Vous pouvez avoir un tuto là-dessus et vous pouvez télécharger ici Kiro dans sa dernière version. C'est un fichier qui se déipe. Il y a même pas d'installation, il y a pas de service tiers. Les données elles passent nulle part. Juste entre vous et directement euh les géants de l'intelligence artificielle, c'est cette petite ligne là. Et vous avez un outil comme ça qui vous permet de manipuler toutes les IA que vous voulez. Je peux vous montrer un écran vite fait de Kiro. Bienvenue sur Kiro. Voilà, vous pouvez choisir un modèle. Il y en a plein qui sont disponibles ici. Voilà, celle d'op les modèles d'open AI. Bien sûr, j'ai mis ma bulle devant. Voilà les modèles d'open AI, les modèles d'entrhropique. Vous pouvez connecter ce de Mistral, vous pouvez connecter tout ce que vous voulez. Puis vous pouvez dialoguer avec n'importe quel IA, avoir une conversation avec plusieurs IA l'une après l'autre, avoir des rôles qui sont enregistrés, des prépromptes qui seront enregistrés. Je vous invite à découvrir Kiro, c'est gratuit, n'hésitez pas à les regarder. Mais cette logique de Kiro, bah c'est tout simplement de passer par une configuration. Par exemple, si je prends chat GPT, je vais rentrer une clé API, donc un truc qui m'identifie auprès d'Open AI et qui va me permettre d'utiliser, regardez, les modèles d'open AI. Certains d'entre eux, je les ai pris, d'autres je les ai pas pris. Bon, mais en tout cas, je vais pouvoir les utiliser dans mes conversations avec cette IA là, cet I là, cet I là. Puis si j'ai une clé à pays anthropique, je fais pareil avec anthropique par Google. Par je fais la même chose par Mistral et cetera et cetera et d'autres si vous en voulez. En clair, je vais pouvoir discuter avec plein d'IA sous sur la sous la forme que vous voyez ici votre ordi. On met Kiro par exemple dessus. Tiens, je vais mettre un petit K parce que ça fait toujours plaisir. Là pour le coup, je mets pas de croix rouge parce que c'est gratos et Kiro va vous permettre d'accéder à plein d' Donc en fait l'interface là ici sur abonnement, je suis pas obligé de passer par cette interface et payer 20 balles. Je peux tout faire à l'usage. Ça c'est le niveau 2, on va dire. Il y a un niveau 3 dans la connaissance et la pratique de l'intelligence artificielle ben qui suit directement celle-ci. C'est le fait qu'on pourrait se dire à un moment ou un autre et si je passais directement par une IAIA locale? Bah là ça peut commencer à faire plaisir. La logique elle est très simple, c'est de se dire que certains modèles d'intelligence artificielle qui normalement sont ici et du coup soit on passe par là on paye, soit on est par là on paye. Est-ce qu'on pourrait pas faire en sorte que cette i là elle soit directement ici sur mon ordinateur? Parce que si c'était le cas, et ben fini tous ces petits liens là, j'aurai une interface qui permet d'utiliser des IA et j'aurai une ou plusieurs I à cet endroit-là. Bon, si j'ai tout sur mon ordi, je peux couper les connexions. Je peux aussi couper mes budgets, j'ai plus besoin puisque tout agit ici. Et puis aussi, très très important, je n'ai plus de data qui sortent parce que le problème de mes petites flèflèches, c'est qu'à chaque fois qu'ici je mets un document ou j'ai une conversation un petit peu confidentielle ou que je fabrique un truc que je sais pas trop si j'ai le droit de le fabriquer, ça c'est pas bien. à chaque fois, bim, que ça passe par ici ou par là, ça se retrouve quelque part sur des data centers américains, chinois, français, mais pas chez nous. Enfin, pas personnellement sur ma machine. Si je pouvais avoir des modèles DI ici sur ma machine, ce serait cool. Sauf que il y a une petite difficulté, en fait, il y en a deux. La première, c'est que souvent euh ben euh on n' pas euh ce qu'il faut en terme de logiciel pour faire tourner UNIA sur la machine et que souvent on n' pas ce qu'il faut en terme de matériel pour faire tourner des bonnes grosses intelligences artificielles. C'est là où vous allez peut-être commencer à voir où on va en venir avec notre potion magique du jour. La logique c'est que sur notre PC, en plus j'ai essayé de symboliser un laptop, donc un PC portable donc on est mal barré. Si on veut faire tourner là ce petit carré sur euh un PC portable ou un PC classique et cetera, et bien on va avoir besoin de deux choses. Et vous allez voir, on va essayer de pas faire trop geek, on va rester dans du grand public parce que ça fait partie de la potion magique du jour. C'est que ce que je vais vous montrer aujourd'hui, bah c'est accessible vraiment à tout le monde. Pas besoin de faire des lignes de code dans tous les sens. Retournons sur un nouveau petit schéma. Imaginez que vous ayez votre PC, voilà, votre bonne tour cette fois-ci avec un joli écran et cetera. Dans votre PC, il y a différentes composants et puis il y a différents logiciels. Vous avez une bonne carte mère qui se trouve là, vous avez une bonne cross carte graphique qui se trouve ici et en fonction de ce que vous avez sur votre carte graphique et ben vous avez plus ou moins de mémoire. Si vous mettez un joli petit logiciel là-dessus, ben vous pourriez faire tenir, faire tourner, faire l'inférence comme on dit de d'une intelligence artificielle d'un modèle IA qui se trouve ici. Sauf que ça dépend vachement de ceci, de la carte graphique qui peut avoir plus ou moins de vam de mémoire graphique. Les IA, les modèles d'IA, bah ils tournent sur de la carte graphique. Donc ça veut dire qu'il nous faut une machine suffisamment balaise, voire avec plusieurs cartes graphiques pour faire tourner des modèles suffisamment balaises. Pour vous donner un ordre d'idée, quand vous entendez un nombre de paramètres dans un modèle d'intelligence artificielle, parfois on vous dit que c'est 1000 milliards de paramètres. Voilà, un gros modèle de chez Google ou chez Open ou chez Anthopiic et cetera, bah vous pouvez faire la conversion, voilà, en mémoire que vous devez avoir de disponible. Par exemple, un modèle de 30 milliards de paramètres, il vous faudra environ 30 Go de RAM. Ça veut dire qu'un gros modèle tel que je viens de les citer des géants de l'intelligence artificielle américain ou ailleurs, ceux auquels on accède directement sur leur serveur, s'ils ont 1000 milliards de paramètres, ça veut dire qu'il nous faut bah 1000 Go de mémoire VAM. Et ça, c'est juste pas possible. Les cartes graphiques aujourd'hui, elles font 8 16 32 Go de RAM et puis c'est à peu près tout. Bah ça veut dire qu'il nous faut nous tourner vers des plus petits modèles, souvent moins performants, toujours moins performant, surtout si on attend de qu'il raisonnent, qu'il fassent des réflexions profondes et cetera et cetera. Bref, qu'ils aient des capacités absolument dingo de l'intelligence artificielle brute. Faut des gros modèles et nous on a que des petites machines. Le secret ce serait donc ben d'avoir un modèle qui puisse tourner avec notre configuration classique voire avec un laptop classique. Et là il s'avère que le fameux GMA 412B, le dernier modèle qui est sorti par Google qui est open source, ça veut dire qu'on peut le télécharger et qu'on a le droit de le faire tourner sur sa machine. Ça signifie aussi que quand il est chez nous, qu'on l'a téléchargé, qu'on le fait tourner sur notre machine, il est gratuit. Et il s'avère que ce dernier modèle GMA 412B, il est particulièrement performant. Il fait du raisonnement, il fait de l'agent qui est capable de piloter des choses, de mener des actions. Il fait également du multimodal. On peut lui envoyer du son, il y a pas des encodeurs, des couches, des machins, même de la vidéo, il arrive à manger ça proprement. Alors bien sûr, c'est pas Cloud Opus 4.8, mais celui-là est disponible qu'en ligne parce qu'il faut des gigantesques machines, des data centers d'entropique pour le faire tourner. Mais il vaut le coup, il vaut clairement le coup. C'est un des meilleurs modèles. Il est très satisfaisant. On aimerait bien que Mistral fasse un modèle aussi léger, aussi performant à cette hauteur. Ce modèle, GMA 4 12B, c'est un modèle dense, c'est un bloc et comme son nom l'indique, 12B, il est 12 milliards de paramètres. Je suis en train de vous dire qu'il est performant, qu'il est vraiment satisfaisant, qu'il est plein de capacité et qu'il tourne avec 12 milliards de paramètres. Ça veut dire qu'avec une petite carte graphique normale ou un laptop un petit peu costaud, si vous avez 16 Go de mémoire euh graphique, alors vous pouvez faire tourner ce modèle. Ouh! Voilà le premier le premier ingrédient de notre potion magique. Mais il suffit pas de récupérer un modèle. où c'est qu'on les récupère de faire des commandes en ligne. Oh là là, on n'est pas geek. De le lancer quelque part sur notre ordi, comment on fait? On l'installe, on le télécharge, on le cople. Qu'est-ce qui se passe? Puis comment on lance le modèle? Ben il y a pas de touche pour appuyer dessus. C'est pas un icône, c'est un modèle d'intelligence artificielle. Bon bah, il faut qu'on arrive à servir ce modèle sur notre machine. En gros, il faut que le modèle, il soit récupéré dans un logiciel qui sache le chercher, le trouver, le rapatrier, l'installer sur notre bécane et surtout le faire tourner, le faire fonctionner et quand on lui demande quelque chose pouvoir servir la réponse. Toute cette logique qui est habituellement dans les data centers des géants de l'IA, il faut que cette logique là, elle soit sur notre ordi avec dedans le fameux GMA 412B. Et ben ça les amis, c'est une couche logiciel. On va installer sur notre PC un logiciel qui s'appelle LM Studio. LMS, on va l'appeler comme ça, LM Studio. Il va vous permettre d'aller chercher des modèles directement en ligne. Alors bon, pas forcément sur ces serveursl. GMA 4 12B, il est sur les serveurs de Google, il est rendu disponible sur des services GingFace et cetera et cetera. Bref, on va pouvoir le récupérer en ligne. C'est donc mon LM Studio qui va aller le récupérer quelque part sur le net et qui va l'installer directement bim sur mon disque dur sur ma machine. Ma machine sur laquelle il y a ma carte graphique. aussi LM Studio qui va permettre de dire ben je récupère une commande de je sais pas quoi, de qui tu veux, de ce que tu veux, un truc qui est en local sur ta machine et quand tu vas me demander quelque chose, je vais comprendre qu'il faut que je prenne ce modèle là, que je le mette sur la mémoire de ma carte graphique et je te donne la réponse. Vous avez alors un système qui est totalement intégré, qui est composé de LM Studio. Il y a d'autres choses mais c'est pour les geeks. Genre Olama, c'est un service qui marche très bien comme ça qui permet aussi de télécharger des modèles, de les faire tourner, de faire leur service directement en local. Mais pour l'installer, tout ça, faut être un petit peu connaisseur, un petit peu geek. D'accord? On va considérer que nous on l''est pas du tout. Bah, il nous faut LM Studio. Vous allez voir à quel point c'est simple de le récupérer, de le faire tourner. Il est gratuit. Très bien. LM Studio, on le récupère. Dans LM Studio, on dit "Bah va me chercher, GMA 412B". C'est super cool. Il va aller le chercher, il va le mettre sur notre PC et il va être capable de le faire tourner quand on lui demande donc de le servir. Une sorte de serveur de modèle. Voilà, on a notre serveur de modèle LM Studio et notre modèle dessus. Après, il y a plus qu'à avoir quelque chose pour lui dire et s'il te plaît, j'ai besoin que tu me serves ce modèle et que tu affiches le résultat à cet endroit. Alors, cet outil pour jouer avec l'intelligence artificielle en local, bah ça pourrait être aussi euh Kiro par exemple ou un outil que vous développez vous-même, une interface toute bête à qui vous allez dire, "Regarde, quand je pose une question, hop, tu l'envoies dans LM Studio qui lui a euh j'ai ma 412B." Voilà, puis quand j'ai ma 412B bah répond à LM Studio, tu dis "Alm Studio affiche-le-moi sur ma sur ma fenêtre." Pourriez-vous développer un truc he en HTML pour mettre dans votre navigateur, en Python pour faire tourner sur votre machine et cetera et cetera. Mais il vous faut un petit outil. Et c'est là qu'on arrive au dernier morceau de ce que j'ai à vous raconter aujourd'hui parce que nos usages ont pas mal évoluer ces toutes dernières années avec l'amélioration des capacités de l'intelligence artificielle. En 2023, on utilisait des chatbot. On est sur les interfaces TG GPT, on disait un truc, ça nous répondait un truc, on était content. En 2024, on a eu l'apparition des assistants IA. Donc il y avait cette conversation mais en plus on pouvait lui adjoindre des choses, on pouvait le paramétrer, on pouvait lui dire de parler de telle façon, d'avoir telle donnée de référence en plus de ce que l'IA sait faire, on commençait à avoir des trucs sympas plus l'apparition d'autres modèles, pas de type texte mais de type image, voire de début de vidéo et cetera et cetera. Et puis 2025, ça a été l'explosion des agents I là des intelligences artificielles qui sont de base connectés et connectable via des MCP. Bon, c'est les API là, les liens entre quelque chose et quelque chose d'autre un peu plus élaboré et fait pour les intelligences artificielles. Bref, des connecteurs entre des modèles DI et des outils ou des bases de données en ligne. Par exemple, je connaître connecte en MCP mon modèle DIIA avec ma messagerie Gmail par exemple. Bah du coup Lia qui est âge antique, elle est capable d'action, elle est aussi capable de raisonnement maintenant, elle est capable de se dire "H il y a peut-être des informations dans le mail de Renault. Du coup, je vais choisir mon MCP, je vais actionner mon MCP pour aller regarder dans la messagerie de Renault. Je récupère un message, hop, et je m'en sers pour donner la réponse à Renault." Voilà, donc toute cette logique raisonnement plus agentique plus MCP pour se connecter à des trucs et pouvoir activer, actionner des choses, c'est le principe de l'agentique, bah sont apparus en 2025. Tout ça à euh formaliser des IAS toujours plus puissantes, toujours plus costaud, toujours plus balaises. Ce qui fait que les géants de l'intelligence artificielle, les Open AI, Anthopique et Gemini et tous les autres se sont mis à vous proposer dans leur interface, celle que vous payez sur abonnement, des capacités de connexion à des autres outils. Bah, c'est les MCP, les petits réglages disant "Ah tiens, connecter ma messagerie, connecter mon Google Drive, connecter mon machin." Ce sont les MCP. Ces mêmes interfaces vous ont proposé des modèles qui raisonnent. On se dire "Ça vaut le coup que je paye l'abonnement, on a des modèles qui raisonnent." C'est pas l'interface qui raisonne, c'est le modèle qui est derrière. Ce serait cool d'avoir un petit modèle comme GMA 412B qui est capable de raisonnement et d'âge antique et de multimodal. Et s'il était tout petit, on pourrait le mettre en local. C'est ce qui se passe. Là, on est en 2026 et ce modèle là, j'ai mes GMA 412B puis les autres sortiront les leurs et tout ça face à Mailloré. Bah toutes ces capacités qu'on avait en 2025 réservées sur abonnement au géant de Lia et on était un peu inféodé, ben on se les retrouve magie dans un GMA 412B. Ben avec toutes les capacités un peu moins puissantes, un peu moins balaises mais récupérable en local sur notre PC. Et 2026 les amis, on s'est dit que quand on a des modèles aussi capables, plus ou moins puissants, certes plus ou moins petits, plus ou moins balaise, mais tout aussi capable, bah peut-être qu'on peut faire fonctionner des systèmes bien plus balaises que juste une interface avec laquelle on discute. Et ça a été l'apparition il y a quelques mois des systèmes d'orchestration agentique. Oh le gros mot, ça veut dire quoi? Ça veut dire que sur une machine donnée, un PC par exemple, on pourrait imaginer d'embarquer tout un tas de choses. Par exemple, d'avoir, si ce n'est un modèle à l'extérieur ou à l'intérieur, il faut un modèle capable comme je le disais, mais d'avoir par exemple bah une interface graphique qui soit un petit peu plus sympa que un truc juste conversationnel, message entrée, message retour, quelque chose qui puisse nous permettre de paramétrer tout un tas de choses dans notre système. Et dans notre système, qu'est-ce qu'on mettrait? Ben, on mettrait par exemple le fait d'avoir des données là aussi sur notre machine, des données qui sont fournies directement à notre interface, donc au modèle qu'on va pouvoir utiliser. Alors bien sûr, ce modèle là, ben il va devoir être un gros modèle. Donc on est reparti sur les grosses I mondiales, américaines ou chinoises. Sauf que attendez maintenant, il y a GMA 4B qui est arrivé. Bon, donc logiquement, on est sur cette ce principe-là, on se dit ce serait bien d'avoir des données. Puis comme on est sur notre machine avec cette cet écosystème là qu'on commence à construire, on pourrait se dire ben que cet écosystème-là, il pourrait faire plusieurs appels de l'orchestration. par exemple de dire quand j'interroge uneia pour lui demander quelque chose, un truc un peu complexe, tu vois, euh fais les brouillons de tous mes mails de ma messagerie pour demain et puis tu mets des trucs dans mon agenda si tu as besoin. Oh là là, ça fait beaucoup de choses. Bon bah, on pourrait se dire tiens Lia, dis-moi quel est le plan euh le plan pour faire ce que Renault me demande. Puis en fonction du plan, Lial va dire bah il faudrait faire ceci, puis il faudrait faire cela, puis il faudrait faire cela. checker les mails, voir s'il y a en priorité, les nettoyer et puis après faire des brouillons, puis les envoyer là, puis après euh repasser derrière pour savoir s'il y a des des événements à mettre dans l'agenda. Bon ben, ça fait plein d'instructions. Alors, on va la faire on va les faire les unes après les autres à la chaîne avec un gros modèle DIA qu'on va payer très cher parce qu'il y a plein de tokens qui vont arriver. Attendez, il y a peut-être plus souple. Si on a un truc d'orchestration sur notre ordi, on pourrait très bien se dire "J'appelle UNIA qui va jouer le rôle de maître par exemple." Voilà, d'orchestrateur. D'orchestrateur, disons ça, ça fait moins maître esclave cette histoire d'orchestrateur. Et puis dans notre système à nous, on va se dire bah si Lia euh orchestratrice elle répond ça, ben je pourrais très bien me dire bah tiens, on va découper tous ces trois éléments. Celui-là, on va le donner à une IAIA, la même ou un autre modèle, peut-être un modèle plus capable. Tiens là, apparemment, il va falloir faire des images. Ben, on demande à une autre IA qui sera une IA de type image. Et puis ben cette tâche là, on va la faire en parallèle à une autre IA encore qui va être spécialisée dans quelque chose hein. Puis cette ce trucl, hop, on va le confier à une autre ia. Puis quand lui il a fini son boulot, hop, bah il remonte l'information. Et lui, il a fini son boulot, il remonte l'information et mon système il va dire à l'orchestrateur, c'est bon, 1 et 2, ils ont fini leur leur boulot. Bah du coup, l'orchestrateur, il va dire "Bah, faut qu'on attende trois maintenant." Tout ça, c'est mené en parallèle. Une fois que tout le monde a fini son travail, peut-être qu'on va remonter l'information à orchestratrice au départ à qui on va dire bah en fait c'est fait par d'autres modèles IA. Ah bon? Il va du coup vérifier le travail, il va dire c'est bien du coup lui il va nous répondre en disant dans l'interface c'est bon tout le travail il a été fait. Voyez cette notion d'orchestration avec un agent euh maître entre guillemets qui va lui-même bah avec son ses capacités agentiques déclencher des nouvelles sessions avec d'autres sous-agents. Donc cette mécanique-là ben elle est hyper performante et hyper pertinente. L'autre truc qu'on peut faire c'est de se dire ben comme ce système là il est chez moi et que il y a des données qui peuvent nourrir ce que je vais dire aux IA. par exemple un système prompt dire "Tu sais moi je m'appelle Renault et puis j'ai telle caractéristique et mon métier c'est ça et puis j'aime bien ceci, j'aime pas cela, bah en fait ça va être lié directement à mon système ici et donc à chaque fois qu'on va interroger des IA, bah ça va tenir compte de mon contexte. Sauf qu'une fois que j'ai fait ce trucl de d'opération de relever mes mails, ce qui serait super sympa, c'est que d'une part on consolide, d'autre part qu'on s'en souvienne. Alors consolider, ça veut dire quoi? Ça veut dire que ce serait vachement bien que ce système là, il intègre ben des fichiers, un système de fichiers. Plutôt que d'avoir juste un fichier ou une base de données avec mes infos, pourquoi pas avoir un système de fichiers, par exemple un répertoire tout simple, tac tac tac, qui serait aussi sur ma machine. Répertoire Renault. Et puis dans le répertoire Renault, il y a un sous-répertoire qui est, je dessine bien, je vous avais prévenu, qui est la messagerie de Renault. Puis un autre répertoire qui est euh les réseaux sociaux de Renault. Voilà. Et plein d'autres répertoires. Puis dans ces répertoires, on mettrait des fichiers. Alors, il y en a qui ont fait ce genre de choses. Cloud Cowork, c'est exactement son principe. Cloud Cowork a donné naissance indirectement. C'est pas Entropite qu'il a fait, mais il y a des fans de Claude qui ont vu que Claude pouvait faire ce genre de choses. Donc, Claude Claude Code a donné naissance à Claude Cowork. Et puis il y a un zzou un jour qui a dit "Bah moi je vais faire un système comme ça qui sera pas géanthropique, je vais le faire chez moi en open source direct et je vais le donner à tout le monde et je vais appeler ça open clos." Voilà et donc enfin il l'a pas appelé comme ça, il l'a appelé différemment. Il l'a appelé au départ Claude Bot parce que c'était vraiment basé sur Claude entre Pic a dit non ça doit pas avoir le même nom. Le mec il a dû changer le nom, c'est devenu open clos000 changements de nom. Et ce système-là il a émerveillé plein de gens. Pourquoi il a émerveillé plein de gens? Bah parce que ce système il est vivant et a deux titres. C'est-à-dire qu'une fois qu'on fait faire quelque chose à notre à notre système là interne, mettons open clos. Bon, on fait faire ça à Unia et puis ben les informations, les résultats, les questions, ce que ça a donné, ce que ça a pas donné, les fichiers et cetera, bah on peut en faire un système de répertoire, sous-répertoire et donc fichier qui se trouve sur ma machine. Ça ça marche très bien dans ce sens-là. Ça permet à une IA qui est pas chez moi de produire des choses qui sont chez moi et puis de les structurer. Ce serait pas mal que ce soit d'ailleurs formaté avec un format plutôt ouvert, ce qui est pas trop le cas d'Open Clow, mais je vais vous reparler après d'Hermes Agent qui lui fait un format plutôt sympa. Chez Cloud Cowork par exemple, on utilise des systèmes de fichiers qui sont des fichiers au format markdown. Le format markdown, ça rien de méchant. C'est sont des formats de de fichiers, un peu comme vos fichiers texte. Vous voyez, c'est c'est du texte brut, il y a pas de code dedans, mais il y a quand même des petites mises en exerg. On sait ce qui est un titre, on sait ce qui est une structure du coup dans votre page, enfin dans votre document, on sait ce qui est en gras, on sait ce qui est un lien, on sait ce qui est de l'insertion d'une image. Bref, on peut quand même un peu structurer les choses sans que ce soit super lourd en code. Le markdown, c'est un format texte mais plus avancé. Et c'est génial pour ce genre de système parce que je vous rappelle qu'à chaque fois qu'on discute avec notre système, Open Clow par exemple ou Cloud Cork, c'est la même chose, euh et bien on va balancer, on va consommer des tokens parce que tout ça c'est pas chez nous toutes ces I là. Donc à chaque fois qu'on fait une commande dans un sens, qu'on reçoit des réponses dans l'autre sens, s'il doit y avoir du code partout et ben et que c'est pollué tout le contenu qu'on envoie, bah ça fait beaucoup trop de token. On préfère alléger. Le format markdown, c'est fait pour ça, avoir des formats légers mais bien structurés. Et la logique de l'avoir comme ça en système de fichier permet à votre outil qui se trouve là, open clos de dire dès qu'on lui démarre une conversation, "Attends, attends, bouge pas, j'ai juste un fichier comme ça qui est à la racine de notre répertoire de travail dans lequel il y a les instructions de base, celle qui était là avant, instruction personnalisée et puis des instructions sur qu'est-ce qui se passe en dessous. Tiens, au fait, sache que j'ai un sous-répertoire réseaux sociaux si tu en as besoin." Ah bon? Très bien. On va lui préciser ça dans un seul petit fichier au format léger markdown. et dès qu'il va commencer une session, ce petit open ou autre, bah il va lire ce fichier et du coup il va être beaucoup plus adapté. Ça c'est la première dinguerie. Deuxième chose, quand on va lui demander des trucs, tiens, il faudrait que tu publies telle chose sur mes réseaux sociaux, LIA enfin le système qui est ici va interroger LIA qui va te dire "Attends, moi je sais raisonner. Quand tu dis sur mes réseaux sociaux c'est lesquels?" Hop là, retour à l'envoyeur. Le système il sait dire avec le petit fichier queil y a un répertoire réseau social. Du coup, on va dire à Lia, bah cherche. Bah le répertoire, il est ici dedans. Est-ce qu'il y a la liste de mes réseaux sociaux? Ah oui, il y a un petit fichier, c'est liste et accès à mes réseaux sociaux. Très bien, je le récupère. En dessous, il y a un autre petit fichier qui est lié à qui on dit "Bah tiens, sur Twitter, sur X, pardon, j'écris comme ça. Sur Instagram plutôt comme ça. Sur LinkedIn j'écris, j'écris plutôt comme ça." Ah bon? Bah, on a déjà tout un tas d'informations sur comment on écrit sur les réseaux. Il y a pas besoin de faire réfléchir LIA qui coûte très cher. On va avec notre système récupérer ce truclà, l'envoyer à Lia qui va dire "Bah très bien, du coup je te fais tes tes poste et puis il y a pas de problème. Est-ce que tu veux que je te les publie? Du coup, je sais où c'est." Très bien, on va dire le système, vas-y, tu as qu'à publier. Voyez, on a un système qui est beaucoup plus sachant et qui va avoir cette logique ben de données structurées dans lesquelles il va pouvoir naviguer pour savoir déjà plein de choses. C'est vachement bien si on a déjà plein de données bien structurées. Mais au début, on a rien quand on commence avec Open Clow. Euh d'ailleurs, c'est la même chose avec Claude Cowork, hein, sachez-le. Cloud Cowork, il a changé, il a été permis parce que il y a eu l'application Cloud. L'application Cloud, c'était euh tout simplement plutôt que d'avoir un accès comme je vous l'ai montré tout à l'heure là, moche dans mon schéma, un peu moins moche. Ils sont de plus en plus moches mes schémas. Plutôt que d'avoir un accès comme ça, vous avez rien sur votre ordi et tout se fait avec Lia, et benopiic dit, on va faire un autre truc, c'est bon qu'on va créer une application cloud. desktop donc sur un PC et cette application bah vous allez pouvoir la télécharger, l'installer là. Du coup, comme elle est là, vous allez pouvoir avoir un système de fichier sur votre PC tout en ayant un cerveau de votre système Cloud Cowork qui est une desia de chez Cloud. Donc c'est exactement le même principe qu'il y a que je vous symbolise de façon très moche en dire un dératé. Je pourrais faire du ménage euh ici ça ce système là euh tout ce que je vous indique ici ça pourrait être du euh ça peut être c'est du cloud l'application cloud elle fait ça. Voilà le cerveau, il est pas chez nous, il est chez le serveur de cloud. Ça peut être open clow qui est aussi le même principe de système avec des fichiers qui sont pas markdown sur open clow et c'est un peu relou des systèmes qui sont un peu opaques que seul ce trucl Open Clow comprend. C'est un peu dommage, on peut pas y accéder. Alors que sur Cloud Cowork, on comprend, c'est du Markdown, on peut aller faire fouiller dedans et c'est plutôt cool. Bon, il y a des avantages et des inconvénients. Le truc c'est que l'application Cloud, l'application Cloud dans laquelle il y a Cowork, bah en fait c'est celle d'entropique. On peut l'installer sur son PC et puis c'est tout. On peut pas la récupérer, en faire ce qu'on veut. Alors qu'Open Clo, c'est une application open source. Donc on peut récupérer cette application, la mettre sur une machine celle qu'on veut, voir sur un service en ligne si on a envie, voir sur une machine dédiée à ça ou sur notre PC actuel. Et puis on peut en faire absolument ce qu'on veut. On est propriétaire de tout. Donc on paye rien et on est peinard. N'empêche que les informations restent sur mon PC mais qu'elles circulent quand même. Elles sont échangées avec les gros modèles DI qui sont chez Anthopic ou chez Open AI ou Ailleurs. L'autre petite dinguerie de ce système de fichier, c'est qu'il peut aussi euh donc être exploité. Ça, je vous l'ai dit, il peut être exploité quand le système il va on va lui demander des trucs et qu'il va vouloir les faire. Il y a déjà les données là, donc elles remontent dans le système. Il y a pas besoin de faire des trucs supplémentaires et ça se souvient de jour en jour. Mais l'inverse, c'est vrai. Une fois qu'on lui a demandé de nous produire je sais pas quel mail ou poste social par le système, il va le ranger dans le répertoire réseaux sociaux, sous répertoire Instagram sous sous répertoire publication de tel jour. Et donc c'est un nouveau petit fichier qui va à venir agrémenter notre système de fichier local chez nous qui va du coup pouvoir servir demain à avoir des requêtes encore plus pertinentes, plus performantes avec l'historique de ce qu'on a fait hier sur Insta. Pareil, on va pas demander à Lia qui n'en sait rien. Bah ce sera notre système de fichier qui va savoir qu'on a fait un un post Instagram hier. Quand on va lui dire "Je voudrais bien la suite de mon poste d'hier", il va savoir de quoi il s'agit sans avoir besoin de manipuler des IA parce que c'est dans notre système de fichier. Génial. Et le coup de génie d'Open Clow et bien il est aussi alors hormis ce système de fichier, c'est un peu le même que que Cloud Cowork, mais tous ces systèmesl ils ont aussi euh compris que ça pouvait être super bien d'ajouter des super pouvoirs super pouvoirs dans ce système. Voilà qui sont S comme super pouvoir et S aussi comme skill des skills, des capacités. Ça ça veut dire que si à un moment donné avec Open Clow par exemple, je lui dis "C'est comme ça qu'on rédige un poste sur mes réseaux sociaux, tu vois, tu vois comment on fait? Faut d'abord faire ceci puis faire cela, un titre comme c hashtags comme ça, machin." Tu as bien compris? Oui. Open Clow, une fois qu'il l'a fait une fois, il va vous dire, généralement, il vous dit "Est-ce que là on vient pas d'apprendre à faire un truc qui pourrait peut-être servir demain Du coup, en plus des données que j'alimente et dont je me sers, je vais créer des skills, des capacités. Tiens, là, avec le travail que je viens de faire avec Renault, je sais comment on écrit un bon post Instagram comme Renault a envie. Du coup, j'enregistre tout ça dans des instructions qui sont en fichier aussi. Si bien que si Renault demain me dit tiens, faudrait faire le poste Insta du jour, je sais comment le faire. Je sais déjà qu'il y a un titre, des hashtags et cetera. J'ai pas besoin de demander à Lia qui se trouve à l'extérieur, je sais le faire. Donc vous avez un assistant IA à travers ce système là qui c'est vrai au début est tout vide mais quand vous prenez le temps de lui apprendre des trucs à le faire avec lui prenez le temps de lui donner des données, de lui apporter des informations, de lui dire tiens digère ça. Qu'est-ce que tu en penses? Qu'est-ce que tu me questionnes? Et quand vous prenez le temps aussi de lui apprendre à faire des trucs, un poste Insta, un machin, un bidule, et bien jour après jour, il a de plus en plus de données local qu'il est de plus en plus fiable et performant et sachant et il a de plus en plus de skill de capacité que vous avez déjà utilisé, donc vous lui avez apprise par le passé dont il va pouvoir se resservir. Et c'est toute la magie de ces systèmes d'orchestration agentique résumé dans ce schéma absolument horrible. Suite à Cloud Cowork qui est totalement sous côté hein, je vous conseille d'utiliser Cloud Cowork. Maintenant, vous avez l'application, les modèles d'entropique, bah vous pouvez tester Open Clow. Sauf que Open Clow, bah il est dangereux. Alors, il est déjà un peu inconfortable parce que son système de fichier, il est pas en markdown, il est pas trop visible, c'est un peu opaque et tout ça, mais c'est rigolo hein, c'est super pratique et super utile et ça a fait tout un buzz. Bah, dans le buzz de Open Clo, il y a un nouvel outil très similaire qui est apparu qui s'appelle Hermes Agent. Hermes et, c'est la même logique si ce n'est qu'il est fait pour du professionnel. Il va vraiment s'adapter et créer vos styles et vous demander à chaque étape. Il va vraiment faire un système de fichier en markdown. Il va vraiment faire les choses bien et surtout il va bosser dans une petite couche encapsulé. Parce que le gros défaut d'Open Clow, c'était qu'il y avait pas cette barrière que je viens de rajouter à mon dessin moche que je viens de dessiner à l'instant. Il y avait pas cette barrière. Ce qui si bien que Open Clow, il suffisait qu'on télécharge un skill verolé. Ne faites pas ça. Créez vos propres skills en bossant avec ces systèmes là. Mais parfois sur internet, on vous proposait de télécharger un skill. Ah moi j'ai déjà développé un skill qui fait des posts Insta. Tu as qu'à le récupérer. Tu as comme ça si tu as la flemme, c'est pratique. Je télécharge et je regarde pas ce qu'il y a dans le skill. Si ça se trouve, le gars qui me l'a proposé, c'est un margoulin qui a mis des instructions dans le skill qui vont du coup bah être suivies par mon open clos. Et dans les instructions, il y a eh dès que tu as des accès aux images de Renault, tu les envoies toutes à Telargoulin. Et du coup, il ça a fait des failles de sécurité qui sont pas du hacking, qui sont juste des failles parce que on a la flemme, on télécharge un truc et puis il y a un malandrain de l'autre côté et puis on se fait avoir. Et ça fait depuis le début d'Open Clow, la première semaine, plein de gens sont fait avoir puis plein de pirates se sont engouffrés dans la dans la brèche et puis après tout le monde a dit il faut jamais installer Open Clow sur votre machine. acheter une machine à part, acheter un PC à part et puis fait tourner Open Clow là-dedans. Oui. Bah du coup, il a pu accès à mes trucs qui sont sur mon PC puisque c'est sur mon PC et qu'enclo, je dois le mettre sur un autre PC. Voilà, ça marche pas. Bah suite à ça est apparu notamment Hermes fait par une boîte new yorkaaise un peu sur les mêmes logiques mais beaucoup plus sécurisé et encapsulé enfin comment on va dire mis dans un dans un dans une boîte relativement étanche. Alors nul n'est parfait les amis pour que tout ça puisse tourner sur votre PC avoir accès à des trucs mais de façon sécurisée sans qu'il y ait de sortie à l'extérieur sans qu'il y ait de hack possible depuis l'extérieur. Hermes et Jun c'est aussi dit bah tu sais les skills qui sont ici nous on va fabriquer les nôtres voilà on va faire déjà toute une bibliothèque de capacité de skill comme ça les gens seront pas forcément tentés d'en récupérer chez des margoulins. Donc tout cette petite logique c'est Hermes agent. Le défaut de Hermes Agent c'est que pour l'installer faut être un geek. C'est fait par des développeurs pour les développeurs. Bon, ça vient de changer puisque la dinguerie dit à quelques jours, c'est de heure à l'heure où je tourne cette vidéo, c'est que Hermes Agent a fourni son application desktop. Ça veut dire quoi? Je vais encore vous refaire un dessin, mais j'espère que celui-là, il sera un peu plus léger et un peu moins moche. Je vous promets rien à part d'essayer de faire en sorte que ça fonctionne. Ça veut dire que vous avez votre PC. Sur votre PC, vous avez encapsulé ici votre fameux Hermes agent. Pour l'installer, plus besoin d'être geek. Je vais vous tout vous montrer bien sûr maintenant que vous avez des explications longues. Après ce sera beaucoup plus facile. Vous allez avoir Hermess Jun, vous allez sur le site, vous le télécharger, ça s'installe directement. Avant, fallait être geek et triturer tout un tas de machins là-dedans. Il y a plus besoin. Voilà. Télécharger, installation, finito. À côté de ça de votre herm qui est sur votre PC. Donc il a accès à tout ce que je vous ai dit tout à l'heure, le système de fichier qui va se construire sur votre PC et tout bien comme on a vu tout à l'heure et sans aucun effort. En complément de tout ça, vous allez télécharger là aussi gratuitement, là aussi installer en deux clics le fameux LM Studio dont on parlait tout à l'heure qui va faire du service de modèle d'intelligence artificielle. En plus est apparu aussi il y a quelques jours le fameux modèle GMA 4 12B. Ça c'est un G. Ouais, il faut vraiment que j'arrête de faire ça. C'est très compliqué de dessiner la souris. J'ai ma 4 12B. On dirait un enfant de 5 ans. GMA 412B qui va être servie par votre LM Studio. Et la magie c'est que votre euh GMA 412B qui a été très facile à installer parce que c'est votre LM studio très facile à installer gratuit qu'il l'installé sur votre machine et ben ça va pouvoir discuter avec votre Hermes agent qui lui aussi est très facile à installer devenu très facile à installer et qui lui aussi est gratuit. Vous vous retrouvez sur un même PC à avoir un magnifique système orchestré d'agent, votre système de fichier, votre Air Messeng installable facilement sur votre PC qui va apprendre de vous, qui va concatener des données qui partent pas dans les airs parce qu'elles sont chez vous. Mais il faut bien quand même faire appel à Delia pour faire fonctionner un message Jun. Oui, mais grâce à LM Studio qui va servir GMA 4 12B qui est gratuit et local, ben en fait tout ça va fonctionner. Vascow sur votre PC et tout ça avec juste 16 Go de mémoire et ça c'est magnifique. Alors je vous dis pas qu'il faut pas il faut pas faire autrement. Moi très clairement j'utilise maintenant ce système là. Il est absolument bluffant. Je le découvre jour après jour et c'est génial. Faut prendre le temps. Et je ne vous cache pas que j'ai rajouté ici dans Hermes agent aussi la capacité à avoir une grosse IA du marché. Voilà, qui me coûte cher euh en token qui est celle de Claude, la plus balaise, Claude Opus 4.8. Et je dis à mon Airmessent, bah quand il faut faire des réflexions hyper profondes pour mettre en place des choses, pour créer des skills imbattables, par exemple, bah utilise LIA Opus et puis ça va me coûter un petit peu de sous, 1 € 2 dollars et cetera et cetera. Mais pour tout le reste, l'exécution des skills, les résumés, les productions de trucs, le fait que je lui parle pour tous ces choses-là, bah G412B est totalement capable pour 90 % de mes besoins. Donc bah j'ai réduit par 10 mon besoin et mon économie de token. Et en plus toutes ces choses-là et ben elles restent en local. Ce que je demande à Lia extérieur, c'est de la mise en place de truc mais pas de regarder dans mes fichiers comme ça rien ne circule. J'ai donc mon ordi avec une carte graphique. Ça pourrait être un bon laptop. récent qui a 6 G de mémoire graphique, hein. Renseignez-vous sur votre machine ou euh ou voyez ce qui ce qui existe. Mais si vous avez ça, ben vous téléchargez euh Hermes et Junt gratuit. Vous l'installez maintenant avec sa version desktop hyper facilement. Pareil avec LM Studio gratuit, un clic téléchargeable. Vous lui demandez d'installer G412B gratuit, téléchargeable. Ça va tourner avec vos 16 Go de mémoire et vous avez le système complet. magnifique, ça ne vous coûte rien, vous êtes autonome, vous pouvez tout débrancher, partir en vacances, machin, vous pouvez le laisser tourner euh continuellement. C'est aussi le principe de ces agents orchestrateur, c'est que vous pouvez lui dire tiens toutes les euh toutes les nuits, tu me fais tout un traitement pour aller récupérer des prospects, pour aller faire des relances, pour rapprocher mes factures. Vous pouvez lui faire absolument plein de choses et en autonomie parce que tout tourne sur votre PC. Bon, vous allez vous coucher, vous laisser tourner et puis tout roule comme ça. C'est le principe du système magnifique. Maintenant que vous savez tout et que je l'ai expliqué bien longuement comme ça vous maîtrisez complètement le truc, je pense que cette vidéo, je vais l'appeler masterclass parce que s'il y avait pas mes petits dessins, ce serait classe. Voilà. Mais au moins, vous maîtrisez le concept, ben je vais vous montrer à quel point c'est facile de concrétiser tout ça. On commence par quoi? Hermessent ou LM Studio et GMA 4 12B? Bon bah, on allez, on tire à pileou face dans ma tête. Bim! On va commencer par mettre une IA sur notre machine. Une IA qui tourne avec 16 Go. Ça c'est magnifique. Donc on va commencer par aller du côté de chez LM Studio. Bah vous tapez tout simplement lmstudio.Aaiaii dans votre navigateur préféré. Vous allez tomber sur la page de LM Studio qui va vous proposer très facilement de télécharger euh Download for Windows ou for autre chose en fonction de de là où vous êtes. Euh download le programme d'installation LM Studio. Il y a rien à payer hein, il y a absolument rien à payer. Vous cliquez là-dessus, il va vous télécharger le programme d'installation, euh vous allez lancer l'installation et euh tout va très bien se passer à tel point que vous allez vous retrouver avec le LM Studio installé sur votre machine. LM Studio, ça ressemble à ça. Je vais encore bouger ma bubule parce que je suis vraiment pas au bon endroit. Vous allez avoir dans LM Studio, bah une fenêtre de chat. Mais alors super simple, c'est pas fait pour chatter. Utilisez plutôt notre kir ou créer votre interface vous-même. C'est fait comme je vous l'ai dit pour servir des IA à d'autres systèmes. Donc juste après notre Hermessent, c'est pas forcément fait pour dialoguer, discuter. Voyez, il y a pas beaucoup d'options, c'est un peu naas. Bon, ça c'est l'onglet chat. On s'en fiche un peu, on va aller directement sur le dernier onglet qui nous intéresse beaucoup qui va nous dire "Bah maintenant qu'on a LM Studio, s'il te plaît LM Studio, est-ce que tu peux me trouver des modèles à télécharger?" À l'heure où je tourne cette vidéo, le modèle qui est le plus pléblicité par tout le monde parce que tout le monde ser dessus, c'est le fameux GMA 412B dont je vous parlais à l'instant. Vous allez donc avoir un outil, un moteur de recherche. Vous pouvez vous dire "Non, moi je veux pas ça. Je veux un lama euh je sais pas quoi ou je veux le modèle de chez Hermes. Là, je vais vous mettre le je vais vous brain donc faut pas que je fasse ça ou je sais pas qu'est-ce que je pourrais demander? Un modèle Quen ou un modèle Mistral? Vas-y, Mistrral. Voilà pour voir qu'il y a plein de modèles chez Mistral spécialisés qu'on peut aussi télécharger mais qu'ils ont plus ou moins une taille qui passe sur mon ordi et qui sont plus ou moins performants et spécialisés. Bon, moi je vous propose de découvrir le GMA 412B pour que vous puissiez me dire s'il est bluffant. Vous l'avez ici. Vous pouvez taper GMA 4 12B s'il s'il ressort pas. Confondez pas avec les autres. Un tout petit mais pas performant du tout qui date un petit peu et un très gros qui va pas tourner sur votre machine. Ça va pas le faire. J'ai ma 412B beaucoup plus avancé, beaucoup plus pratique. Il va vous dire combien de d'espace disque, ça c'est pas le nombre de paramètres, c'est l'espace disque que ça prend sur votre PC et vous allez pouvoir lui dire d'ailleurs je crois que c'est pas celui-là. J'ai ma 412B. Je vais bien vous le noter comme ça vous saurez. Voilà, celui-là il est en quat comme vous le voyez ici. Je vous passe les détails mais c'est ce qu'on appelle une quantisation. Il vient de sortir, je l'ai pas vu, ça fait 11 minutes qu'il est là. En gros, il est un peu compacté et cetera et cetera. Bon, vous embêtez pas, il est peut-être bien aussi. Vous pouvez la regarder. Voilà, il est quantisé. C'est de la quantisation. Je veux pas rentrer dans le détail. On a dit que c'était pas geek. Alors, on va faire simple, on va aller sur le normal GMA 4 12B. Voilà, vous allez dessus, il va vous dire combien ça pèse et vous allez pouvoir lui dire "Vas-y, télécharge le GMA 4 12B." Vous allez le télécharger et donc c'est votre LM studio qui va tout seul dire "Bah OK, ben je télécharge, ça prend quelques minutes par c'est gros quand même. Voilà, il faut de la place sur votre disque dur et puis il va l'installer comme ça tranquillement. Vous le laissez faire. Une fois que c'est fait, il va vous proposer de le lancer et quand vous allez le lancer la première fois ou même quand vous le relancez derrière, il y a des petits réglages que je vais vous encourager à bien préciser. Vous allez donc avoir cet écran, on va dire on l'utilise pour la première fois. Bon, après, il va vous le il va vous le redemander. Voilà, il vous fait apparaître comme ça une petite petite fenêtre de configuration et je sais c'est un petit peu pénible à lire, à regarder et cetera et cetera. Le truc que je vais vous demander de faire c'est de régler euh une petite chose et peut-être une deuxième. Il y a il y aura que ça de geek, ne vous en faites pas. Le modèle est téléchargé dans LM Studio, tout va bien. Là, ici, il va vous demander là. Donc là, vous voyez que c'est la mémoire, c'est une une prévision. LM Studio, il vous dit "Ouais, je pense que quand on va faire tourner ce truc-là, on devrait consommer à peu près 8 Go de mémoire." Oh ben, on est large. Oui, attendez, attendez parce que nous, on va vouloir le brancher à Hermes et Jun, notre super système euh d'orchestration. Et dans ces super systèmes d'orchestration, vous comprenez bien qu'il va avoir besoin de euh d'avoir un contexte assez balaise, voyez, de récupérer de vos informations, de jouer avec en local avant d'envoyer tout ça à Lia et de récupérer en Lia. Le volume de ce qu'on va échanger avec l'IA, ça s'appelle le contexte, la taille du contexte. Bah, si on veut que ce soit performant dans ce qu'on envoie à l'IA, il faut que le contexte, il soit un petit peu costaud, encore plus si on fait jouer plusieurs I en même temps, le multiagent dont je vous parlais tout à l'heure. Donc, il faut un contexte minimum. Hermes et Junt nous dit il faut au moins 64000 tokens de contexte. C'est ce qu'il demande. Bon et ben c'est juste la première information qu'on va remplir. Voyez ici contexte length. Donc taille de contexte, vous allez préciser quelque chose de plus élevé ici. Vous pouvez le faire avec le petit curseur ou vous pouvez le renseigner tout simplement dans le petit champ qui est ici. Bah mettons 65000. Voilà, comme ça on aura un petit peu de marge. Sauf que vous le voyez ici avec mes pauvres 16 Go de RAM, si j'ai un contexte plus long, bah déjà euh on va devoir charger les 12B, les 12 milliards de paramètres. Ça va me prendre 12 Go de mémoire. Puis le contexte étant long, bah quand je vais le remplir le contexte, ben ça va craquer. Voilà, ça va être trop pour ma mémoire de 16 Go. Mince, nouvella un peu limite. Alors, on peut baisser le contexte, mais Hermess va pas pouvoir bosser. Bon, on peut l'augmenter puis d'ailleurs, il va refuser de bosser. Euh et plus on l'augmente, bah plus ça va bouffer de la mémoire potentiellement si je la remplis. C'est un risque. Bon, alors il va falloir jouer sur autre chose. Si vous voyez que vous êtes un peu ricrac en mémoire ou si comme moi, vous vous dites "Bah en plus parfois je fais de la vidéo pendant que mon IA tourne." Donc je vais avoir besoin d'un petit peu de marge dans mes 16 Go de ma carte vidéo, ma carte graphique. Et bien vous allez avoir un deuxième paramètre à régler. Vous allez descendre tout en bas ici et vous avez ici, regardez le K, le KH et le V CASH. C'est la quantisation du euh de ce contexte, de ce volume d'échange que vous allez échanger. Vous pouvez l'optimiser, le le quantisifier, je sais pas comment on dit, le quantisation. Bref, vous allez pouvoir cocher ces deux trucs-là. Vous allez pouvoir mettre ça ici, cocher ici et cocher ici. Va apparaître alors un petit menu déroulant vous disant F16. Il y a pas d'avion là-dedans. C'est juste pour vous dire là, il y a rien qui est qui est compacté. Et donc en rien de compacté dans ce contexte et ben regardez, j'ai besoin de 16,8 Go de RAM et ça va pas le faire si je pousse à bout. Alors vous allez pouvoir choisir autre chose. Par exemple d'avoir une quantisation Q ici c'est Q8. Bon je vais éteindre ma petite fenêtre qui est derrière pour pas que ça vous pollue. Voilà voyez ici Q8. Vous pouvez le passer ici en Q8 et vous voyez les chiffres qui sont là-haut. Hop! Qui vont baisser un petit peu. Bon, moi dans les paramètres de LM Studio, je lui ai dit s'il te plaît, on dépasse pas 14 Go parce que je veux toujours me laisser 2 Go de de marge. Bon, c'est dans les paramètres de dans la petite roue denté là qui se trouve derrière mon logo de LM Studio que j'ai paramétré ça. Du coup, il continue à me le dire en rouge, sauf voyez 14 ça passerait. C'est moi qui veux garder de la marge. Bon, c'est pas grave. Le deuxième truc, on va aussi le mettre en quantisation 8 Q8. Et voilà, ça passe. Maintenant, au maximum du contexte assez grand qui est nécessaire pour Hermess et Junent. Ben, il va utiliser 12 Go. Ça passe crème. Voilà, même en faisant autre chose sur ma carte graphique. La quantisation va faire perdre un tout petit peu de qu de qualité à au modèle GMA 4 12B mais vraiment un tout petit peu. Ça vous explique aussi ce que vous avez aperçu juste tout à l'heure. J'avais pas l'intention de vous montrer mais vous l'avez vu. Vous avez vu que dans LM Studio tout à l'heure quand j'ai cherché GMA 4 12B, il en avait deux dont un qui est sorti il y a un quart d'heure 15 minutes à l'heure où je tourne cette vidéo. En fait, ils ont déjà fait un GMA 412B déjà un peu quantifié quant qu avec de la quantisation. Je sais pas le mot qui convient. Donc voyez, c'est un modèle un peu plus léger. C'est peut-être si j'avais pris ce modèle là, j'aurais pas eu besoin de faire ce petit exercice. Mais j'aurais quand même eu besoin d'avoir un contexte de moins 64000 tokens, hein. Ça, vous l'avez bien noté. Donc le principe, dès que vous lancez le truc, vous mettez bien 65000 plus de 64000 tokens ici. Et si vous êtes rrac en mémoire, bah vous allez jouer là-dessus. Si avec Q8 vous êtes encore ricraque, vous pouvez descendre à Q4, hein. Ça va le faire aussi hein. Vous perdez très peu en qualité. Par contre, plus vous descendez, plus vous perdez beaucoup en qualité. Ah donc les premières tranches, vous perdez que dalall et vous gagnez en mémoire. OK pour vous? Donc s'il y a besoin de ce petit exercice, bah vous savez le faire, vous êtes pas perdu. Et puis vous allez faire l'adè. Là vous voyez que dans la petite barre du haut, il est en train mon LM Studio de charger le modèle GMA 412B. Il est en train de le charger. Hop, ça y est, c'est fini. Donc là les amis, ben je suis en local. Là, je discute avec mon chat moche. C'est pas fait pour ça LM Studio, mais j'ai un chat m bon voilà un chat moche pardon, un chat bot moche. Voilà, si je lui dis bonjour, là j'ai pas de modèle derrière. Le seul modèle c'est j'ai ma 412B qui est en train de réfléchir. Voyez que c'est un modèle de raisonnement. Il comprend que je suis en train de lui parler en français du coup machin. Il est en train de réfléchir à des trucs et puis il va peut-être m'appeler monsieur boum. Puis il a vu qu'il y avait un contexte que j'ai mis dans l' studio mais peu importe. Et du coup hop là il me répond. Voilà, j'ai ma 412B, il est à mon service dans LM Studio. Mais c'est pas dans LM Studio que je veux le mettre, je veux le rendre disponible pour Herm Jun avoir ce magnifique système orchestrateur. Alors, je vous propose de laisser un petit peu de côté le LM Studio qui a maintenant des capacités de servir. On y reviendra. Le GMA 412B, on va le réserver au chaud comme en cuisine. Et puis de l'autre côté, on va aller installer Hermes et Junent. Et là vous allez voir que c'est d'une facilité déconcertante. On fait ça tout de suite. Et on se rend donc sur bah le site Hermes agent. Alors c'est hermes-agent.nousn research tout attaché.com. Voilà, ne vous gourez pas de site. Après, il a tellement une graphie particulière, on va dire que vous pouvez pas trop vouser. Bon, on sait pas quelqu'un aurait pu le recopier. Hermes-agent.com. Vous allez tomber sur ce site avec toute la doc. Voilà pour les geek. On vous dit "Ah bah c'est facile à installer. Il suffit de mettre ses ces formules bizarres là quelque part. Oh là là là, c'est pour les geeks. Voilà, nous on veut du fastch et bien regardez, c'est ça qui est apparu à l'instant le enfin il y a quelques jours à peine, c'est le desktop app. On a maintenant notre application disponible Hermes et Junt. Je clique là-dessus, on me dit "Ah, renoter sur Windows." Si vous êtes sur autre chose, il va vous dire autre chose. Et ben, tu peux directement télécharger. Vous faites télécharger. Donc euh Airmes Agent Desktop pour mon PC Windows. Vous téléchargez ici, il va vous télécharger le programme d'installation que vous allez pouvoir lancer. C'est comme LM Studio. On clique, programme d'installation, on lance, c'est téléchargé, installer, c'est fini. Bah sur Hermes Agent maintenant, c'est aussi simple que ça. On le télécharge, on lance l'installation. Alors, l'installation, elle dure un petit moment sur euh Hermes Agent Desktop euh parce que en fait, il a tout un environnement à tout ce truc que je vous décrivais tout à l'heure, il faut qu'il installe tout et il lui faut du coup un peu de Python, il vérifie quel euh format quelle version de Python est installé sur votre PC. S'il y en a pas, il il en installe une. Bref, il y a un peu de bricolage quand même à faire au départ pour que tout soit nickel. Petite précision quand même, Hermes et Junent, ce système là, il tourne pas nativement sur Windows, il tourne sur un Linux. Donc faut que vous ayez un Linux sur votre PC. Si c'est pas le cas, c'est pas grave. Voilà, si vous avez un Linux sur votre PC, passer les détails, vous avez pas besoin. Si ça vous parle pas ce que je vous raconte, il faut juste vous assurer que vous avez WS, enfin peu importe que vous avez un un sous-système Windows qui tourne en Linux dans une distribution Linux comme Ubuntu ou des choses comme ça. Je sais pas si vous avez entendu parler. Si c'est pas clair pour vous, bah vous allez vite le savoir parce que l'installation va vous dire "Eh, tu as pas Linux, ça ne va pas? Est-ce que vous voulez l'installer Oui, non machin. Si euh ça devait planter, si vous voyez que à un moment ça marche pas, que ça vous répond des erreurs ou que ça s'est pas cherché dans vos fichiers qu'il est il a des incapacités fonctionnelles, c'est sûrement parce que le Linux, il est pas tout à fait complet. Vous avez fait une bidouille ou je sais pas, je sais pas trop quoi. Si c'est le cas, vous savez quoi? Vous demandez à votre IA préféré, vous demandez à Claude, un machin et cetera. J'ai installé Hermes agent desktop et puis il y a tel truc qui merdouille. J'ai entendu Renault dire que ça pouvait venir de Linux sous mon Windows. J'y comprends rien, aide-moi s'il te plaît. Et puis va vous dire, tuv un terminal de commande, tu tapes la commande, installe machin, papam et c'est réglé, c'est fini. Voilà, ça c'est juste si vous avez un pépin parce que je connais quelqu'un euh de personnes qui ont eu ce genre de pépin. Donc comme ça, vous êtes averti, faites-vous aider le lien ou du site Renault descodes si vous avez envie. Mais hormis ça, téléchargement du truc, on lance l'installation, ça dure 4 5 minutes. Papam, puis après bah c'est tout. Vous avez votre Air Messeng qui est installé sur votre machine dans son petit précarré comme je vous l'ai indiqué tout à l'heure. On va ouvrir du coup cette petite ce petit Hermes qui est maintenant sur ma machine parce que ce qu'on va vouloir faire c'est la potion magique. On a côté notre LM Studio avec notre GMA 412B tout local qui est sur notre machine. Ça c'est fait. Et maintenant, on a Hermess et Junent sur notre machine. Bah, il faut qu'on dise dès le départ, avant même de commencer à bosser avec Herm Junent, bah tu vas bosser avec comme cerveau dans ta petite tête. Quelque chose qui ne va pas être à l'extérieur comme on l'a vu tout à l'heure, mais quelque chose qui va être à l'intérieur. Donc, faut que je lui indique que LM Studio est bien là. Bon et ben on va ouvrir euh Hermes et Junt et on va faire ça tout de suite. Alors le mien il est déjà ouvert mais je vais vous afficher une fenêtre de paramétrage qui devrait ressembler à peu près à la première fenêtre que vous aurez au tout début quand vous allez lancer Hermes J qui est celle-là. Voilà, vous devriez avoir une fenêtre dans laquelle il y a pas le menu de gauche mais il y a ce que vous voyez ici. Donc dès le départ dans Hermessage Agent qui dit bah si vous voulez comme cerveau IA on peut disposer des du portail Nous. Nous, c'est le nom de l'éditeur de Hermes Agent. Bon, vous faites pas ça, enfin vous faites comme vous voulez absolument. Voilà, eux, ils ont derrière des modèles DI qu'ils utilisent et ça fait genre la voilà, un peu comme Open Router ou comme d'autres choses dont je vous ai parlé tout à l'heure. Il y a d'autres I qui sont disponibles chez nous. Ça peut être très bien. Ça vous fait un portail pour profiter de plein d'IA. Ça peut être très très bien. Là, nous ce qu'on essaie de faire, c'est de refiler euh une IAIA locale. Alors, si vous déployez ici, bah vous allez voir d'autres modèles sur lesquels vous pouvez vous connecter. Donc, par exemple, si vous voulez bosser que avec Anthopique, vous oubliez tout ça et vous faites que Entropique. Vous allez donc devoir fournir une clé à pays euh entreique. Comme je vous l'ai indiqué dans mes schémas tout à l'heure, vous allez tout payer à l'usage. Bon, vous pouvez quand même mettre une clé à pays entropique comme je vous l'ai indiqué dans mon schéma précédent pour dire bah certains trucs je vais les faire avec Claude puis d'autres je vais les faire avec mon local. Vous pouvez mixer tout ça mais le premier écran on va déjà s'attacher à voir notre propre usage de LIA dans LM Studio avec notre GEMA 412B. Donc vous devriez avoir ça. Vous aurez un petit une petite un petit lien à Venik Instead. Ça ça vous plaît pas. Vous voyez pas l' studio là-dedans que sur la première fenêtre, vous devriez l'avoir en bas de la page si mes souvenirs sont bons. Mais enfin, vous vous farfouillez, vous cliquouillez sur un quelque chose qui ressemble à ça. Le cet écran là, il va vous permettre de d'écrire directement des clés à payid de service. D'ailleurs, vous le voyez ici, moi je me suis quand même mis une clé entre picque et une clé open router pour si un jour j'ai envie de tester d'autres IR. Mais c'est pas ça que vous allez faire. Ce que vous allez chercher là-dedans, c'est LM Studio. Bah oui, notre LM Studio qui est chez nous en local, c'est pas LM Studio en ligne. Vous cherchez dans la liste et vous allez tomber, regardez sur LM Studio. Bon, il vous demande une appiqué là juste derrière, juste au-dessus de ma bulle. C'est pas une clé API, nous qu'on veut puisque nous avons déjà, je vais bouger ma bulle. Voilà, nous avons déjà LM Studio qui est sur notre PC qui est en train de tourner. Il tourne pas tout à fait, je vais vous expliquer tout de suite. Vous allez cliquer sur LM Studio et vous avez deux options. Regardez, soit on lui donne une clé. Moi, j'en ai pas autre clé. Soit il faut lui donner une adresse, vous voyez, une adresse de base. Et bien c'est ici que vous allez pouvoir enseigner des choses. Alors, ce sera pas présenté exactement pareil sur le premier écran, mais vous allez vous yy retrouver. À un moment, il va vous demander une adresse, une adresse euh comme un peu comme une avec des chiffres. Cette adresse là, qu'est-ce que c'est? Et ben c'est pour dire au système Hermes qui est maintenant installé de lui dire il faut que tu fasses des appels. Tu es dans une boîte, je te rappelle il y a pas d'IA dedans c'est une boîte fermée tout ça machin. Il va falloir que tu fasses des appels à un truc qui sert une IA. Et ben le truc qui sert une ALM Studio. Donc on va réserver cette partie-là et on va essayer de chercher notre adresse et on va revenir à LM Studio pour lui dire comment qu'on fait dans LM Studio dans lequel il y a bien mon modèle GMA 412B pour lui dire essaie de servir des choses quand on de servir GMA 412B ou autres quand on te demandera. Ben ça c'est une petite manipulation supplémentaire à faire du côté de LM Studio. LM Studio, vous avez vu ici la partie je recherche des modèles puis je l'ai fait installer la partie ici pour testouiller pour voir si le chat marche mais c'est un peu nul, ça sert pas à grand-chose. Il y a une autre partie qui va nous intéresser ici qui est la partie développeur. Encore un petit bout de geek mais pas temps, vous allez voir. Même si c'est écrit développeur, vous cliquez quand même. Vous cliquez ici sur développeur et vous avez ici le service LM studio qui est éteint. Regardez ici, statut stop. Voilà, pour l'instant ça ne sert à rien. Vous pouvez juste interroger votre GMA 412B depuis votre propre LM studio. Vous voulez que votre LM Studio il serve sur une adresse à Hermagent. Alors, vous allez tout simplement activer le petit bouton ici. Vous allez cliquer là et il va vous dire "Ça y est, le statut est running, le serveur LM Studio fonctionne." Là, on est à l'écoute sur LM Studio. Si quelqu'un me demande quelque chose, bah je lui répondrai avec j'ai ma 412B. Super, c'est ce qu'on veut. Mais il faut te le dire où que on va te demander quelque chose? Et bien, vous voyez que là, il y a une adresse qui est apparue qui est une adresse locale, hein. C'est pas un truc en ligne quelque part. C'est bien votre LM Studio, mais c'est l'adresse locale sur votre PC. de votre LM Studio. Vous chopez cette adresse là et vous la copiez. Et c'est cette adresse là qu'on va indiquer Hermes euh Agent. Et bim, le lien va être fait et c'est tout. Voyez, je vous explique tranquillement, étape par étape, mais vous voyez que c'est pas compliqué quand même. Là aussi parce que pour certains ça peut buggouiller en fonction de ce que vous avez déjà fait avant et patati patata. S'il y a des merdouilles ou même s'il y a pas de merdouille, pensez à vérifier ici le serveur settings là. Voilà, si vous voulez être à peu près sûr de votre coût, vous euh vous euh notez bien euh si euh serve on local network network est bien activé. Je vais être capable de servir ce que j'ai dans LM Studio dans un réseau local parce que en fonction de ce que vous avez, tout ça, ça peut merdouiller. Assurez-vous de la bien la voir si vous êtes bien sur votre PC classique habituel à la maison. Assurez bien de assurez-vous, pardon, bien de l'avoir activé. Assurez-vous également d'activer le enable ces parce que si vous utilisez ce modèle avec autre chose, ça peut être nécessaire et ça peut être un blocage qui peut être un peu relou. Donc si vous avez envie, vous vérifiez juste dans server settings que serveur serve oncal networks est coché et que enable cores est coché. Bah ça vous évitera toute prise de tête hein, autant prévenir plutôt que guérir. Notez quand même que vous avez pigé au passage que ça peut être sur le network cette histoire. Vous pourriez avoir un réseau avec le PC de votre gamin, de votre épouse, de votre mari ou de je sais pas quoi et de dire bah tiens, c'est mon PC ici là qui va servir. J'ai ma 4 12B pour toute la famille. Attention, il vous faudra plus de mémoire si tout le monde interroge en même temps. Bon, c'est la parenthèse pour vous dire que oh les plus geek d'entre vous d'entre vous vont peut-être se dire et si je mettais ça quelque part ici ou là ou un jeu de plusieurs PC. Nous on va faire simple, on a tout en local. On a donc notre adresse, notre serveur qui est en train de de courir, de courir, de marcher, de servir. Est en train de servir service euh statut running. Et on a notre adresse. Bah c'est cette adresse-là que je copie ici avec un simple clic. Je retourne dans mon Airmess agent et c'est cette adresse là qu'il attendait ici. Voilà, vous faites paste, vous faites save et c'est fini. Voilà. Bon, moi je l'ai déjà fait donc je vais pas le refaire mais c'est exactement le premier écran que vous allez avoir. Et dès que vous aurez fait ça, bah vous serez ici, voilà, sur un chat sur qui est totalement indépendant, qui est le chat du coup, non pas un chat de chat GPT ou d'une interface classique, qui est l'interface pour discuter avec votre Hermunent, tout votre outil d'orchestration qui lui-même pour vous répondre va faire appel à LM Studio qui est branché qui va mettre en route le modèle GMA 4 12B qui est assez fantastique. Il est pas fantastique pour 100 % des trucs hein. Vous pouvez, comme je vous l'ai montré tout à l'heure, avoir aussi une clé API pour Claude ou tropicque ou quelqu'un d'autre pour avoir un modèle puissant sous le coude pour faire 10 % de trucs puissants. Mais pour tout le reste, ça va être en local. Voilà, avec votre machine qui tourne là, à l'heure où je vous parle, je suis en train d'enregistrer cette vidéo sur mon PC et vous avez vu que je vous ai partagé le fait que sur ce même PC là, j'ai ma 12B qui tourne. Tout va bien. Pourtant je fais de la captation graphique avec un appareil photo, avec ma carte graphique et tout ça. Ça tourne très très bien. Et on va checker ensemble si ça marche. Qu'est-ce qu'on va lui dire? Allez, un truc un petit peu bizarre. Euh, salut, comment ça va? Euh, c'était qui? C'était qui? Mon dernier invité. De quoi je parle? De quoi je parle? Mon invité à la maison. J'ai fait un barbuck. Qu'est-ce qui se passe? Regardez, il est déjà en train de marcher. Tout ça est en local. Là, c'est j'ai ma 412B qui sert le cerveau de mon Hermes voilà. Et vous voyez qu'il a réfléchi. Il y a un peu de thinking ici. Alors, j'imagine que pour ça, il est pas allé chercher très très loin. Mais vous avez vu que quand même, il a lancé une recherche sur mes fameux systèmes de fichiers pour me dire que finalement ça va très bien. Voilà, très rapidement. Il me l'a fait en combien? 4ondes je sais pas quoi. Ça va très vite. D'après tes notes et nos échanges précédents, le 3 juin. Ah oui, c'est vrai. Bah à l'heure où je tourne cette vidéo, on est le 5. Ton dernier invité était Alexis Lanternier. C'est vrai, le patron de 10h, je l'ai reçu mercredi le 3 juin. Ben il y a 2 jours. C'est ça exactement. Sa discussion a eu lieu le mercredi 3 juin en préparation pour un live ce même jour. Voyez, il a appris avec son système de fichiers qui sont sur mon ordi parce que j'ai préparé une fiche interview il y a quelques jours de quelqu'un que j'ai reçu. Bah là, il sait me dire quel est mon dernier invité. et il m'a pas dit ton invité de quoi à un dîner un quelque chose? Non, il a le contexte, il a les données, il sait. Voilà. Et si maintenant je lui dis "Prépare-moi une fiche pour mon prochain invité", bah il a un skill qu'il a développé qui sont disponibles ici dans les skill and tools que vous avez dans ce système Hermè. Vous allez pouvoir en profiter pleinement. Vous savez tout, c'est pas si compliqué. Je vais vous faire un petit recap. Mais avant ça, je voudrais qu'on passe en revue très rapidement. vous inquiétez pas, simplement pour vous défrichir un petit peu le terrain. Ce que vous allez trouver dans cette application desktop de Hermes, c'est la première version, ça va sûrement s'améliorer après. Moi, je regrette qu'il y ait pas une visibilité totale sur plein de trucs, les fichiers machin, mais on prend d'autres outils pour le faire. C'est très très bien. Tout est en local, on peut prendre un Obsidian. Voilà, autre outil gratuit que je vous recommande pour visualiser tout votre système de fichier si vous avez envie. Euh je peux vous montrer ça non parce qu'il va y avoir des données personnelles, mais en gros j'ai un répertoire de travail que j'ai indiqué messagent et dedans, il y a tous mes répertoires, mes fichiers mais c'est des information, je vous les prête pas et elle reste en local, elle bouge pas. Donc c'est très cool. Donc petit tour d'horizon quand même pour vous dire que là c'est le bouton pour faire des nouvelles sessions de conversation donc qui vont vous amener à à faire des des skills, à avoir des informations et tout ça. Vous allez pouvoir tout détailler si vous voulez. Comme il y a le fameux GMA 412B qui est multimodal de l'autre côté, vous pouvez aussi lui parler hein, ça peut rentrer directement en son. Vous pouvez lui envoyer une image, il va le comprendre. C'est assez bluffant, hein, d'ailleurs, le multimodal en entrée parce que vous pouvez très simplement, je vais faire une nouvelle conversation, je vais prendre un slide que j'ai fait euh vite fait. Voilà, vous voyez, j'ai j'ai glissé déposé un un PNG, une image dans lequel il y a un slide super compliqué. Il y a quoi dans ce slide? J'aurais même pu ne pas préciser slide, j'aurais pu faire image, machin truc. Là, vous voyez qu'on est en local. Le le fichier, il est sur sur mon PC. C'est une adresse qui se trouve sur mon PC. Il va regarder tout ça. C'est sur mon bureau, hein. Donc voilà, il va regarder tout ça et vous voyez qu'il a c'est déjà mis en route. On est d'accord que je suis connecté à que dal. C'est donc mon GMA 4 12B dans mon LM studio qui est en train de faire ce service. Il est en train de réfléchir à tout ça. Le slide, je peux je pourrais vous l'afficher. Il est commac. Il est assez costaud ce slide et il va pouvoir décrypter tout ce qui se passe dedans. Voilà, je vous le montre mais j'ai un peu honte. C'est un truc que j'ai préparé pour l'usage de Lia pour les Bacheliers. Voyez que c'est écrit petit et que il y en a de partout. Pardon, j'ai un peu honte de vous montrer ça. On va juste retourner à mon Hermes Agent. Ouais, regardez juste avec mon GMA 412B en local totalement petit modèle, il a compris bah ce que c'était utiliser l'IA pour réussir, pas pour se remplacer, quel était le la le le fonctionnement de ça, qu'est-ce que je voulais dire là-dedans? Ce que c'est et cetera, pourquoi je l'ai fait, machin? Il a tout pigé puis bah peut-être qu'il va améliorer sa base de connaissance. Donc c'est bluffant d'avoir un modèle quand même qui est assez performant pour un modèle si petit qui tient sur 16 Go de mémoire, voire un petit peu moins. Donc ça c'est les nouvelles nouvelles sessions si j'ai envie. Ici, ce sont les skills et comme je vous l'ai dit un peu plus tôt dans cette vidéo, bah il y a déjà plein de skills embarqués installés dans Hermes et Junt. Des skills parfois totalement bluffant, hein. Le fait que bah il est capable de faire du code en utilisant différents différents modèles, parfois des gros modèles. Euh sachez que Gma 412B c'est aussi faire du code moins. Il va pas vous faire une grosse appli de 8 jours hein, mais il va vous faire des trucs assez performants. Il vous fera une grosse appli de 8 jours. C'est juste qu'il risque d'avoir des trucs imparfaits dedans et pour du code, c'est pas terrible. Mais il est très très bien. Vous avez tout un tas de choses que vous pouvez utiliser pour brancher plein de choses que vous auriez envie de brancher. Voilà, il y en a pas mal. Je vous laisse lire un petit peu. Voilà, si vous voulez analyser des Ça c'est un truc qui qui me sert beaucoup moi, analyser des contenus YouTube, ben en fait il a déjà des skills pour ça. Si vous dites tiens, il y a de quoi parle cette vidéo sur YouTube, il sait ce que ça veut dire. Voilà, il sait récupérer des transcriptions, en faire des résumés, en faire un article de blog si vous voulez. Il sait faire tout ça, regardez, il sait faire tout ça. Bref, il y a plein de choses dans plein de domaines. Obsidian, je vous en parlais tout à l'heure, il a le truc pour aller euh éditer, créer, chercher des notes Obsidian et cetera. Vous pouvez lier les deux Obsidian et euh votre répertoire, vos répertoires de de travail. Il y a plein de choses pour faire des cartes, pour lier Notion, pour lier PowerPoint, pour faire tout un tas de trucs. Il y a plein de choses déjà qui devraient vous intéresser. Allez farfouiller dedans et ça va vous donner des idées de ce qu'il peut faire ce ZZU de d'orchestrateur Hermes Agent qui est maintenant en local, qui vous coûte plus rien et qui fait plus rien sortir. Je vous passe un petit peu en revue simplement les paramètres, les paramétrages configuration, juste pour vous montrer, illustrer ce que je vous ai déjà dit tout à l'heure, le fait que vous pourriez vouloir au-delà du modèle que vous utilisez déjà. Nous, on a notre modèle local mais vous avez vu tout à l'heure, j'ai mis des clés API pour Open Router et Anthopic, bah je pourrais lui dire "Bah non, en fait, on va changer maintenant, on va partir sur Anthopiic et je il va me demander de choisir le modèle." Je peux aussi avoir des modèles auxiliaires. Genre, tu utilises ce modèle-là et si ça merdouille ou s'il est pas dispo, tu utilises un autre. Bon, mon conseil, prenez pas des deux modèles du même éditeur parce que souvent quand il y a un éditeur qui plante, les deux modèles il plantent. Vous pourriez aussi, je vous l'ai dit tout à l'heure, dire que bah pour certains trucs, par exemple pour faire les skills là, bah tu sais quoi? tu vas pas utiliser mon modèle local, tu vas changer, tu vas utiliser un bon vieux Opus 4.8 ou 4.7 si on veut faire un petit peu d'économie, vaut peut-être mieux 4.8 peu importe. Là, vous pouvez mettre un autre modèle. Ce qui fait que votre herm s'appuyer sur opus par exemple hein, voilà pour faire des skills. Et une fois que les skills, ils sont faits, il va utiliser votre modèle local gratuit, confidentiel, magnifique. Et vous pouvez faire un petit peu ce que vous voulez là-dessus. Pour faire du web, vous allez prendre tel modèle. Mais GMA 412B, il sait très bien faire ça. Vous pouvez faire tout ce que vous voulez. Ça c'est les petites configurations du chat que vous avez vu. Je vous conseille de pas remplir ça mais vous pouvez lester vous pouvez le tester pardon, avoir une personnalité euh dans ce qu'il vous répond. Moi je préfère qu'on apprenne à se connaître et que petit à petit dans ces petits systèmes de fichiers il disent bah c'est comme ça que je parle à Renault. Plutôt que de lui mettre, voyez, une personnalité déjà préétablie. Vous faites comme vous voulez. La Time Zone il saura le faire. C'est sur votre c'est sur votre système. Vous pouvez mettre ce que vous voulez. Voilà, le mode d'arc et cetera, ça vous faites ce que vous voulez mais c'est facile, c'est ça va pas vous apporter beaucoup. Ça par contre c'est un truc que je vous invite vraiment à faire dans la partie workspace. Je vous ai dit tout à l'heure Hermes et Junent, moi je lui dis de bosser dans un certain endroit sur mon ordi, comme ça j'ai tous mes fichiers à cet endroit. Bah en fait c'est ici que vous le précisez. Vous créez votre répertoire dans votre système de fichier Windows ou autre he peu importe. Et c'est dans ce je vais vous montrer. Voilà, ce sera plus parlant si je vous montre mon système de fichier. Voilà, ça c'est mon répertoire utilisateur. Je m'appelle Varok. OK, c'est pas mon nom complet, il a été tronqué. Voilà. Et vous voyez que là-dedans, bah j'ai Cowork aussi et puis j'ai Hermes qui est là. Voyez, j'ai Hermes qui est là. C'est mon répertoire Hermes. Bah ce répertoire là, vous pouvez lui demander de vous donner l'adresse complète, c'est pas compliqué. Moi, c'est C2.user user Varok Hermes mais dedans vous allez vous allez voir j'espère que vous voyez rien de non je clique pas voilà après c'est ma ma popote interne. Voyez vous voyez qu'il y a plein de systèmes de fichiers il y en a qui sont réité de cloud parce que je les ai copié mais peu importe vous pouvez les récupérer de cloud he si vous avez l'habitude de cloud cowork vous récupérez tout votre système de fichier déjà créé en markdown et vous les donnez dans le répertoire d'hermes. Mais ça marche aussi hein. Ça marche très bien. Vous pouvez y accéder par obsidian par ce que vous voulez. Bref, il y a tout mon système qui est ici qui est qui est à cette adresse là parce que je lui ai précisé que tout ce qui me fait et que tout ce qui regarde, c'est ici. Mon working directory, mon répertoire de travail, c'est celui-là. Indiquez-lui histoire qu'il mette pas des petits bouts d'un petit peu tout lui un peu partout sur votre ordi. Voilà, c'est ce que je vous recommande de faire, mais vous faites ce que vous voulez. Pour le reste, bah vous pouvez laisser comme ça. Oui, le mode safety euh moi je l'ai laissé, il est de base comme ça à manuel. Dès qu'il fait un truc qui interagit sur votre ordi, il va vous demander. Alors pour certains, bah ça les saoule. Dis voilà, moi j'aime bien. Quand je le lance le soir, je le laisse bosser 3h la nuit, je m'en fous, je suis en local, ça me coûte zéro. Il va faire plein de fiches, plein de trucs, plein de machins, wiki pour ma base de connaissance, ce que vous voulez. Bref, ça m'arrange euh que il me demande pas tous les qu matins que toutes les 4 minutes. Moi, je suis en train de dormir. Donc vous pouvez régler le truc si vous avez envie à Smart. Il va vous demander que si c'est un truc qu'il a jamais fait. Vous avez jamais demandé jamais donné votre autorisation ou à off. Là, il vous demande rien, il fait sans vous demander. Bon, au début laissez-le sur manuel, ne serait-ce que bah vous allez devoir cliquer sur est-ce que tu m'autorises à aller chercher des fich? Oui, c'est bon. Mais au moins ça vous montre un petit peu ce qu'il fait et ça vous laisse en maîtrise du truc. Je vous le recommande pour le pour le début. Pour le reste, je crois que c'est à peu près tout. Ça vous laissez comme ça à la voix vous pouvez changer puisque GMA 4 12B ben il accepte la voix en entrée. Par contre en sortie bah vous pouvez mettre une voix sympa en texte ou speech là vous pouvez mettre bah soit le la mécanique interne de votre PC généralement c'est moche soit vous pouvez mettre du open AI moi j'utilise ça j'aime bien. Certains veulent un truc magnifique et du coup ils prennent 11 Labs. Vous faites comme vous voulez. Voilà. Et si vous voulez que ce soit gratos et que ça reste gratos, vous faites ça. Par contre pour le speech to text, bah gardez votre GMA 412B, il est très bien, il sait faire. Vous parlez dans le micro et c'est injecté directement dans le modèle qui vous répond. Donc ça c'est magnifique. Les trucs avancés, je vous conseille de pas y toucher. Les providers, je vous ai montré déjà tout à l'heure avec les happy case. Voyez que c'est pour ça moi j'ai rentré déjà des clés entre pic open router. C'est pour ça que je peux les régler dans les paramétrages que je vous ai montré tout à l'heure. Gateway c'est si vous avez un Hermes ici puis un Airmes ailleurs que vous voulez faire tourner depuis ici. Vous encombrez pas, restez en local. C'est quand même le principe de ce que je suis en train de vous montrer. Les outils, vous pouvez jeter un œil là-dessus. Voilà, si vous avez envie de rajouter des outils sympas euh par exemple, qu'est-ce qu'il peut y avoir de trucs intéressants là-dedans? Bah, les premiers sont intéressants. Si vous voulez lui donner Eleven Labs par exemple, du coup, il va savoir vous fabriquer des fichiers audio avec Eleven Labs, bah vous pouvez mettre ici une clé Eleven Labs. Comme ça, votre Hermessent, il sera capable de générer grâce à Eleven Labs de tout un tas de tout un tas de de fichiers audio, voir des musiques maintenant. Ils font ça chez Eleven Labs, c'est magnifique. Un navigateur en ligne, vous pouvez faire ça pour qu'il fasse de la navigation un peu plus indépendamment. Bref, vous avez plein de choses et vous pouvez bien sûr lui en ajouter hein, ajouter même des MCP, des connecteurs avec tout ce que vous voulez bien entendu. Votre messagerie, votre drive, votre machin, votre outil de bidule, votre Spotify pour que Hermes et Junt, ils vous mettent la bonne musique en même temps que les lumières d'ambiance de votre domotique quand on arrive à une heure un petit peu fatidique où faut aller vous coucher. votre votre pilote, votre système d'orchestration qui est maison qui vous coûte rien parce que lié à l'M Studio et avec le fameux Gema 412B. La cohérence, la cohésion de la sortie de ces deux outils magnifiques, un modèle DIIA local petit et performant et le Hermes agent en format desktop fait que vous auriez peut-être tort de au moins ne pas tester cette histoire. Voilà. Après, il y aura des nouvelles versions et de Dia local et d'Hermes et Junent, mais là je pense qu'on est bien pour quelques mois. Vous avez de quoi digérer et comprendre comment tout ça fonctionne. Je vous ai tout dit dans ce tuto et des explications théoriques, voilà pour ceux qui ont jamais euh mis le nez dans des API ou des systèmes comme ça pour bien différencier tout ce que tout ce que fait tout ça. Je vous ai montré comment on paramètre tout ça par le menu. Normalement, j'ai rien loupé. Voilà, même si vous avez des tuiles, je crois que je vous ai dit ce qu'il fallait vérifier et ça va aller beaucoup plus vite pour vous à faire que de regarder cette vidéo. Voilà, donc vous n'hésitez pas à en profiter euh et à faire de votre côté et puis bah vous ferez des dingueries. Le seul truc que je vous demande, hormis peut-être si vous voulez bien de lâcher un pouce en l'air, un abonnement, un follow, un activation de la petite cloche ou ah ce serait génial un commentaire. J'aime bien quand vous êtes en train de me dire ce que vous faites, ce que vous faites pas, ce que vous en pensez. Bah n'hésitez pas sur YouTube, ça favorisera cette vidéo, ça fera que d'autres gens la verront, ça fera que on aura d'autres tours et de partage. Et c'est ça que j'ai à vous demander. Si vous voulez bien, si vous en avez envie, bah vous allez sur le site rena-dcode.fr. Je vais laisser des bras croisés parce que mon t-shirt imprimé blanc, il vous permet pas de voir le truc. Vous allez sur le site que je vous ai déjà montré tout à l'heure, vous pouvez récupérer des ressources et tout ça. Et ben si vous avez envie, vous partagez les choses. Ah bah moi dans mon Hermess Agent, j'ai fait tel truc, c'est vachement cool. Ah merci, c'est sympa. D'autres vont partager les choses, partagent déjà. Vous allez pouvoir récupérer des idées des autres, partager aussi vos idées à vous. comme ça, bah ça alimente la machine où on a plein de bonnes idées, on écarte les mauvaises, on prend celles qui nous plaisent et puis ben on fait avancer ce système. Les amis, ça y est, vous êtes en 2026 et vous êtes surtout un peu libéré, délivré des un peu, pas totalement mais un peu ou totalement si vous avez envie, vous êtes un peu délivré en terme de souveraineté et de bah de contrôle de vos données et de ce que vous faites avec l'IA, du local, du qui coûte rien, du à votre botte et de l'orchestration et une IAIA qui est quand même performante ce GMA 412B. Vous testez tout ça et puis bah vous me remerciez en partageant les dingueries également les difficultés. Si vous avez envie, n'hésitez pas à partager vos difficultés. Moi j'ai fait tel truc et j'ai mis une heure à m'en sortir parce que j'avais tel bug, j'ai fini par trouver. Dites-le, ça fera peut-être gagner du temps à d'autres. Bref, on partage Renault descode. C'est fait pour ça. Bon amusement avec tout ça, bon travail avec tout ça. Moi perso, je travaille avec hein. Voilà, c'est pas pour vous donner le son mais non, amusez-vous aussi. Mais en tout cas, maîtriser tout ça parce que ce soit à titre individuel ou pour votre petite boîte que vous vous êtes entrepreneur ou votre association euh ou pour une association, c'est génial ce trucl-là. C'est gratos, c'est local hein. Vous pouvez faire votre association de basket, vous pouvez mettre tous vos machins, préparer tous vos trucs, faire des mails, c'est génial. Bref, ou pour votre entreprise plus ou moins euh costaud, grande et cetera, tout ça est super utile. Bon et ben si vous êtes euh en maîtrise de ce truc-là, bah vous êtes les champions du monde de demain et vous êtes surtout en mesure de dire non, on donnera pas nos données ni notre argent à je sais pas quel gars femme parce que on sait que ces solutions existent. Bref, vous en faites le mieux que vous puissiez en faire et moi je serai ravi. Amusez-vous bien avec Hermes Agent LM Studio euh comme passerelle et le nouveau GMA 4 12B. et à très bientôt sur Renault des codes.

More from AI