
Tech • IA • Crypto
OpenAI unveils Codex, a code-generation agent capable of autonomously creating entire applications, illustrating a new era in AI-assisted software development.
Codex can build a complete game without manual intervention, relying on “skills” to automate tasks like testing and validation via Playwright Interactive. This autonomy marks phase 3 in the evolution of coding agents, going far beyond simple assistance to fully delegated missions.
The agent is built on a large language model (LM) orchestrated by a “harness” divided into three parts: the agent loop for reasoning, execution of actions on tools (terminal execution, file editing, web search), and smooth conversation management. All clients (terminal, IDE, application) communicate through this same central architecture.
The shift from one-shot interaction to a persistent interactive session improves continuity in handling terminal commands, avoiding restarting the session for each model request, which optimizes workflow and agent efficiency.
As context grows (conversation history), two critical mechanisms were developed: autocompaction (intelligent summarization of history to avoid “context anxiety,” where the model loses relevance) and prompt caching (to avoid recomputing identical sequences). These required several adjustments to work reliably, especially accounting for configuration changes during a conversation.
Two OpenAI projects demonstrate Codex’s effectiveness:
Initial human review quickly proved insufficient. An automated improvement loop, called the “Ralph loop,” allows the model to iterate until a satisfactory result is reached, complemented by its ability to self-evaluate. This extends the duration and complexity of tasks achievable without constant intervention.
Codex now receives inputs from development tools like Chrome DevTools, along with logs and metrics to “sense” the quality of its output. This significantly increases its autonomy on long projects, reaching up to six hours without human supervision.
The recommended mindset is to treat the agent as a capable but new team member, excellent at multitasking and writing tests, but still requiring guidance on internal standards and architectural decisions.
Alongside Codex, the startup Piplex proposes an open-source standard called MTHDS (method without vowels) to structure complex business processes beyond simple skills. These methods combine code-like rigor with the flexibility of natural language skills, enabling deterministic and reproducible orchestration for all types of tasks, not just development.
Unlike software development, which benefits from mature tools to translate business needs into precise code, other sectors lack robust tools to structure and repeat complex tasks. The MTHDS solution aims to fill this gap by offering a standard where steps are systematically executed and audited, facilitating compliance and verification.
The recent evolution toward agents capable of handling multiple threads in parallel, greatly amplating human productivity, could trigger an explosion similar to the introduction of spreadsheets, exponentially increasing the amount of intellectual work performed by machines in companies and beyond.
Despite their power, agents exhibit behavioral “rigidity”: they excel in some areas but can become inefficient on very similar tasks. Moreover, increasing the number of agents does not always improve performance and can even reverse gains, highlighting the difficulty of finding an optimal coordination balance.
Humans remain essential for steering, defining direction, and especially qualitatively evaluating results. The real challenge will be maintaining this “client in the loop” while ensuring understanding and control of agents without losing efficiency.
Software development and business process management are entering a new era thanks to autonomous agents like Codex and standards like MTHDS. This shift will drive major gains in cognitive productivity while raising challenges around human oversight and direction.
Bonsoir à tous. Donc je m'appelle Céline, je suis deployment engineer chez Open AI. Euh est-ce qu'on peut juste partager les slides? Très ravi d'être là ce soir pour vous parler de Codex. Donc Codex, c'est l'agent de code de Open AI. Et euh ce soir, je vais vous montrer Codex dans un premier temps. On va faire une petite démo. Après, on va voir comment ça marche et quelles sont les décisions clés qu'on a pris chez Open AI en construisant Codex. On va finir par un retour d'expérience sur deux cas concrets où on a utilisé Codex à fond chez Open AI et ce que ça nous a appris. OK. Juste c'était juste pour les vrais slides de la présentation mais OK. Très bien. Qu'est-ce qu'il faut faire? C'est bon. OK. Donc pour la démo, on va faire très simple. Ça c'est l'application Codex. Donc j'ai ouvert un nouveau folder tout vide. Et euh je vais pas faire très compliqué, je vais demander à Codex de me construire un jeu. Mais la particularité de ce jeu, ça va être que le thème va être le groupe XIA. Et pour qu'il ait un peu de de référence et de contexte, je lui passe un lien vers un article qui parle de XIA. Maintenant, je vais laisser tourner pendant que je fais ma présentation. Ce qui veut dire que bah je pourrais pas check ce qu'il a fait et je pourrais pas lui donner du feedback. Donc je vais lui donner un moyen de faire ça à lui-même. Donc je vais passer euh en contexte une skill. Une skill, c'est un ensemble d'instructions et de script qui va être loadé dans le contexte du modèle et qui va lui apprendre à faire quelque chose en particulier. Donc en l'occurrence ici ce skill là Playwright Interactive ça va apprendre à Codex comment lancer l'application qui va construire faire des tests dessus prendre des screenshots peut-être et itérer sur ce qu'il fait. Donc voilà, je vais lui envoyer tout ça. On va OK. Donc là il me dit qu'il va utiliser le frontend skill. Donc j'ai pas dû lui donner ça explicitement. il a déjà dans la liste de skills qui sont available et il a compris qu'il doit utiliser ça et puis la skill que je lui ai explicitement demander d'utiliser. Et après, on voit que qu'il fait appel à quelques outils, il fait des commandes dans le terminal et notamment on voit qu'il a search the web pour l'article que je lui ai donné. Et donc maintenant, il comprend un peu le contexte. Euh, il a repéré le no bullshit. Apparemment, c'est très important. Euh et là, il va me faire un plan de ce qu'il veut construire. Euh il va itérer dessus et euh après la presse, on va voir ce qu'il a construit. esta plant je sais pas excusez-moi présent c'est normal je oui mais qu'est-ce qu'il faut qu'elle Ah ouais ok Cool, c'est bon. OK. Alors, vous m'avez vu demander à Codex de me construire une application euh Prom Scratch euh sans écrire une ligne de code, sans avoir même un IDE ouvert. Et ça, ça illustre un peu l'évolution qu'on est en train de voir. Donc, c'est la phase 3 de tout ce qui est agent coding. Ça n'a pas toujours été le cas. Donc dans une première phase, c'était surtout du code complete. C'était l'époque copilote où on faisait du tab complete pour prédire la ligne suivante qu'on veut écrire dans le code. Après, on est passé à la phase 2 où on itait sur le code en parallèle avec un agent qui est ouvert dans l'IDE. Et maintenant, on passe à la phase 3 où on peut déléguer des tâches entières à un agent, le laisser tourner pendant qu'on fait autre chose. Comment ça marche? Derrière tout ça en fait derrière tout agent, la brique de base, c'est juste un LM. C'est un modèle qui va output du texte. Et ce qui fait la différence entre un agent et un autre, c'est la couche d'orchestration qui va être en top. Donc comment est-ce qu'on orchestre cet appel à ce modèle qui génère du texte? Et ça c'est ce qu'on appelle le harness. Donc le harness ça a trois blocs principaux. Le premier c'est un peu le cœur de la machine. C'est là où le raisonnement se passe. C'est le agent loop. Et donc c'est ça qui va transformer un message utilisateur en une chaîne de raisonnement éventuellement en appelant des tools, en faisant des actions pour au final arriver à une réponse finale. Et donc un bloc important aussi, c'est la partie qui va effectivement appliquer les changements qui résultent de ce raisonnement. Et autour bien sûr, on a des des blocs qui qui assurent une expérience utilisateur plus fluide comme par exemple le management des conversations et cetera. Et une chose à savoir dans Codex, c'est que peu importe le client sur lequel on utilise Codex, donc vous m'avez vu en train d'utiliser l'application, mais on peut aussi l'utiliser dans le terminal, dans les IDE, mais derrière c'est la même logique. Tous les clients vont communiquer avec le même harness à travers le app. Maintenant, je vais faire un zoom sur l'agent loop parce que c'est la partie la plus intéressante du harness. En gros, les Jun Loop, ça a trois parties principales. Tout d'abord, l'initialisation du contexte avec l'historique de la conversation, donc tous les messages qui ont déjà eu lieu, s'il y en a, plus le dernier message de l'utilisateur. Et donc tout ça, ça va passer au modèle qui va entrer dans sa loupe de raisonnement. Donc soit il va me donner une réponse finale, soit il va faire appel à des tools et le harness va exécuter ces tools et réinjecter l'output dans le contexte du modèle. Et donc on va boucler jusqu'à ce que la tâche soit complétée. Une chose à savoir c'est que le message que je mets dans le chat, donc quand je lui ai demandé de me construire un jeu, c'est pas la seule chose qui va être envoyée au modèle. On rajoute des layers d'instruction qui proviennent soit de du système, donc par exemple les systèmes prompt des modèles, la liste des tools auxquels le modèle a accès, soit qu'il proviennent de l'utilisateur lui-même, donc le prompt bien sûr, mais aussi peut-être des des fichiers agents and qui contiennent des instructions qui vont tout le temps être loadé dans le contexte du modèle. Et maintenant, basé sur ce contexte, le modèle va raisonner. Donc, il va peut-être euh faire appel à des tools. Et comment il fait ça? Il output des messages de type function call. Et ça, ça va être euh pris par le harness. le harness va exécuter les tools. Donc ça peut être soit des tools qui sont built in dans le harness, soit des tools qui sont côté serveur. Donc dans ce cas, par exemple, le web search, c'est un tool qui est fourni par la responses API qu'on va taper, soit des tools qui sont fournis par l'utilisateur, donc notamment à travers des des serveurs MCP. En pratique, la plupart des capacités de codex repose sur deux type de tool ou d'opération. Donc la première, c'est l'exécution de commande dans le terminal par exemple pour découvrir le le ripo actuel, ouvrir un fichier, delete un fichier et cetera, soit dans la partie editing de fichier. Donc euh OK, j'ai envie de modifier ce code-là, j'ai envie de créer un fichier et cetera. Et là, j'ai envie de parler de deux décisions clé produit qu'on a faite. Côté exécution dans le terminal, en fait, traditionnellement, ça a été fait par la Shell Tool. Donc, c'est un outil qui permettait au modèle d'ouvrir une session dans le terminal et c'était fait en one shot. Donc, il pouvait faire ça une fois et s'il avait besoin de réitérer dessus, il avait besoin de faire appel à cet outil à nouveau et créer la session de zéro. Donc on a remplacé ça maintenant par Excand et WR Standardin qui lui permettent de lancer une session interactive qui va pouvoir aller taper dessus après en utilisant le même session ID. Et vous allez me dire "OK, mais pourquoi est-ce que la partie editing c'est une partie à part? Pourquoi est-ce qu'on se base pas sur des commandes dans le terminal pour le faire? Et bien on aurait pu. Mais le truc c'est que les modèles ont des capacités inhérentes à output des euh des divs structurés, donc en format patch parce que notamment ils ont été entraînés sur des données et des données qui viennent de GitHub euh par exemple. Et donc c'est il y a plein de de d'exemples de structure dif et on avait envie de profiter de ça plutôt que de réapprendre au modèle de d'utiliser un format différent. Euh et donc c'est pour ça qu'on a décidé que ce soit en standalone tool et en plus on pouvait avoir plus de contrôle côté permission parce que c'est quand même une partie très importante tout ce qui est editing de fichier. OK, top. Maintenant, le modèle va itérer, il va faire des appels de tool et en fait au fur et à mesure qu'on fait des itérations, le contexte va grossir. Et plus le contexte grossit, plus on remarque deux types de problèmes. Le premier, vous l'avez peut-être déjà expérimenté, c'est le context anxiety ou rot. C'est quand le à partir d'un certain moment, le modèle commence à à sortir n'importe quoi. Et le deuxième problème, c'est les coûts d'inférence que vous avez peut-être aussi expérimenté. Euh il y a deux mécanismes qui permettent de de gérer tout ça. Le premier donc côté context anxiety, c'est l'autocompaction. Donc c'est un mécanisme qui va qui va résumer la conversation qui a eu lieu jusqu'à un certain point et passer ce résumé au modèle au lieu de de passer toute la conversation à chaque fois. Et côté coût, on a le prompt caching qui c'est un mécanisme qui évite de reprocessie fixe du prompt qu'on a déjà vu avant. Ce n'est pas trivial. On a dû faire beaucoup d'itération, beaucoup de fix. on fait euh toujours euh côté à la fois autocompaction et prom cashing et je voulais en partager euh quelques ans. Donc tout d'abord, côté autocompaction, on s'est rendu compte que parfois quand l'utilisateur change de configuration au milieu d'une conversation et quand on compacte l'historique, on a tendance à oublier le changement qui a été fait au milieu de la conversation et garder que la configuration initiale. Et donc le fix c'était de se dire "OK, pour compacter l'historique de la conversation, on va enlever tout ce qui est developer message." C'est notamment les messages qui contiennent les infos de configuration. On va compacter l'historique et que après on va refaire une passe sur les changements de configuration et garder que la configuration euh la plus récente. Et on va passer ça dans l'historique qui est compacté. Et pareil, je pense qu'on a beaucoup sous-estimé le nombre de tokens que les images euh donnent dans le threade. Donc on a dû augmenter ça un peu pour pour que la compaction se lance plus tôt. Euh maintenant une note, l'autocompaction, c'est bien, c'est automatique, mais ça ne remplace pas une bonne hygiène de contexte. Donc quand vous remarquez que le modèle commence à drift un peu, euh c'est souvent mieux de commencer un nouveau trade. Et pareil, si jamais il y a des explorations qui sont très coûteuses en token euh mais qui sont pas forcément nécessaires pour garder dans le contexte initial, le contexte du trade principal, vous pouvez lancer des sous-agents qui vont faire ça et puis renvoyer dans le le trade initial que les informations importantes. Côté prompt caching, en fait c'est très délicat. Si la partie initiale du prompt change en tout petit peu et bien on ne va plus hit le cach. Et donc ça ça peut arriver dans plusieurs cas notamment la liste des tools qu'on renvoie au modèle dans la partie initialisation de contexte que je vous ai montré. S'il y a des tools qui proviennent de MCP, en fait, on s'est rendu compte que le le l'ordre de tools qui sont output par cette intégration MCP n'était pas toujours le même tour après tour. Donc, on a dû fixe ça pour pouvoir hit le cach. Et pareil, tout ce qui est changement de configuration, au lieu de changer les messages initiaux, on a peine juste des nouveaux messages dans la conversation. OK. Avant de voir ce que Codex nous a construit, donc j'ai envie de de vous faire part de deux expériences qu'on a faites chez Open AI et qui nous ont beaucoup appris sur comment travailler avec Codex. Il y a une loi, la loi de Brooks. Brooks, c'est un computer architecte américain qui dit que si on a un projet qui est un peu en retard, rajouter des gens, ça va que retarder le projet encore plus et repousser la date de compétion. Je pense que c'est vrai, les petites équipes ont tendance à avancer beaucoup plus vite. Il y a moins de friction, moins de coûts de coordination. Et chez Open AI, on voulait voir si elle pouvait avancer encore plus vite avec Codex. Donc la première expérience, c'était Sora pour Android. On s'est dit "OK, on doit chip Sora pour Android le plus rapidement possible." On a pris une team de quatre ingénieurs avec Codex et le résultat c'est que en 18 jours, on avait une version interne de l'application et en 28 jours au total l'application était disponible sur Google Play Store. Ça l'est plus. Euh mais quand ça a été construit, ça a bien marché. On avait à peu près 99.9 % de de crash free rate. Donc ça a marché mais bon, on a changé de stratégie. Euh une deuxième expérience un peu plus intense euh c'était la construction d'un produit en interne qui est utilisé. Là on s'est dit "OK, on va prendre une équipe de trois ingénieurs mais le challenge c'est qu'ils vont écrire zéro lignes de code manuellement et vous faire ça que avec Codex." Et pareil ça n'a pas trop mal marché. Euh donc après 3 mois et demi, on avait une version du produit qui est très utilisé en interne et l'estimation c'est que ça nous aurait pris 10 fois plus de temps euh sans codex. Combien de combien de code génér, j'ai plus le chiffre en tête. 1500 PR, je pense des millions de de lignes de code. D'accord. Ouais, c'est c'est énorme. Euh ouais, c'est je crois que le produit a été finalisé en 5 mois et euh c'était combien? 5 milliards de tokens. Euh et les deux expériences nous ont beaucoup appris euh sur l'utilisation de Codex. Euh on a essayé de one shot. Donc l'équipe Sura a donné le code de l'application iOS à Codex est en mode bon Codex maintenant tu nous sors la version Android allez hop je dirais pas que ça n'a pas marché ça a marché mais pas comme on le voulait et c'est normal en fait la bonne approche c'était de tout d'abord de commencer avec des petites features euh donc soit construites manuellement dans le cas de Sora, soit construite avec Codex parce qu'ils avaient pas le droit d'utiliser de d'écrire du code dans le produit interne. Donc de commencer avec ces petites features et de donner ça à Codex comme exemple. Donc en fait lui dire construis-nous une page de settings qui ressemble à cette page, ça marche beaucoup mieux que euh vas-y débrouille-toi, construis-nous une page de settings. Et donc itérativement, on commence à complexifier les tâches et à unlock des features un peu plus complexes. Et bien sûr, on commence par planifier. Donc ce qui marchait bien, c'était de lui demander euh comment il comprenait le code, euh comment il allait implémenter la feature, on itérait sur le plan et une fois que c'est bon euh on le lance. Maintenant, une fois que le travail est structuré, il faut structurer l'information qui est donnée à Codex. Et bien sûr, on a essayé l'approche euh un agent MD énorme avec toutes les instructions dedans. Et bien sûr que ça n'a pas bien marché. En fait, si tout est important, rien n'est important, euh ce qui a marché beaucoup mieux, c'était d'utiliser Agents MD plutôt comme une carte. Donc de dire à Codex, OK, bah les les parties, voilà comment le le RPO est structuré. Si tu as besoin de cette information là, tu peux aller là et là tu auras plus d'informations. Ce qui fait que Codex ne va pas tout loader dans le contexte euh d'un coup, mais plutôt faire ça de façon explorative. Et donc on a dû faire un travail en un mot de structuration du Ripo, bien sûr, mais dans le long terme, ça a bien c'est un bien payoff. Maintenant, même si on a très bien structuré l'info et le travail, bien sûr, ça ne marche pas du premier coup. Donc, il y a un travail de review à faire. Et au début, on faisait pas mal de review manuel, mais après on a vite compris que ça n'allait pas scale avec le throughput de de Codex. Donc, on a vite convergé à des reviews quasiment faites par des agents IA. Et donc ça ressemblait à ça. On mettait des fondations, on structurait l'info et le travail, on lançait Codex, on reviewit, on lui faisait du feedback et Codex itérait dessus jusqu'à ce que la tâche soit complétée, donc jusqu'à ce que les agents soient satisfaits. Et ça ça c'est un paradigme qu'on voit de plus en plus. Ça s'appelle la Ralph loop. Donc Ralph Wigom, c'est un personnage des Simpsons qui est très naïf mais très persistant et il va pas arrêter une tâche avant de de réussir. Donc les agents, faut les voir un peu comme ça. Il faut bien les guider, bien leur donner du feedback et on peut pousser un peu plus loin ce concept en donnant au modèle une façon pour s'auto-évaluer. Donc je sais pas si vous avez vu mais André Carpati a sorti un truc il y a quelques quelques semaines, un mois peut-être maintenant qui s'appelle Autoresearch il donne une tâche bien spécifique à un agent et lui donne une liste de success, success criteria et puis une façon de s'évaluer et il lui dit "OK bah tu éteres sur la tâche et tu ne t'arrêtes pas jusqu'à ce que tu atteins les les threshold que j'ai fixé pour les success criteria Et comme ça, bah l'agent va itérer. Et maintenant, ce qui rend la loupe encore plus intéressante, c'est de donner à l'agent un moyen de de voir ce qu'il a fait. Donc en fait, dans notre cas, quand on construisait une application, on pouvait pas se contenter de juste review le code. On devait review aussi euh le le résultat. Et ce qu'on a fait, c'était de donner à Codex accès à par exemple les Chrome Dev Tools euh par MCP. mais aussi à des logs, à des métriques, à des features d'observabilité. Et en fait ça ça a permis à Codex de un peu de de sentir ce qui construisait. Et le résultat, c'est qu'on a unlock le potentiel de de Codex pour travailler sur des tâches beaucoup plus longues qu'avant et on observait très régulièrement des tâches de plus de 6 he sans forcément avoir un humain qui intervenait. Maintenant, bien sûr avec tout le codex, bah il va répliquer des des patterns dans le ripo. C'est bien quand ces patterns sont bons et quand ça adhère aux normes internes, mais c'est mauvais quand les patterns ne sont pas bons. Et donc, on a dû faire beaucoup de clean up. Au début, on faisait manuellement mais après ça ne scalait pas. Et donc ce qu'on a dû faire c'était de encode des principes des principes en or, donc des principes de notre de nos normes d'architecture et de dire à Codex OK bah tu tu vas faire une passe assez régulièrement et vérifier si tous ces principes sont respectés et sinon tu vas faire des changements. Et donc là, les humains, ils devaient review les changements que Codex proposait plutôt que d'aller review manuellement et de check principe par principe si c'était respecté ou pas. Bon, j'ai beaucoup parlé mais s'il y a une chose à retenir, c'est que le mental model qu'il faut avoir en travaillant avec les agent de code, c'est que c'est un peu comme un senior engineer qui vient de débarquer dans votre équipe. Donc c'est un seigneur engieur qui est très très capable, très fort en compréhension de codebase qui sont très larges, qui adore les unit test pour une raison, qui est très bon en code review et qui est très bon en multitasking. Après bon, faut faire gaffe, la loi de Brooks, j'ai l'impression qu'elle s'applique aussi au nombre de thread de Codex. Donc plus on rajoute de thread, ça va pas forcément accélérer le projet. Donc on fait gaffe à ça. Euh mais cet ingénieur, il a besoin de un peu de direction parce qu'en fait il est nouveau dans l'équipe. Il est pas forcément à jour sur les les préférences d'architecture, le jugement long terme, les normes en interne et cetera. Donc voilà, euh c'est un très bon atout mais il faut savoir l'utiliser. Alors euh je vous mets en lien les références. Je pense que les slides vont être partagés du coup. Donc n'hésitez pas à voir les blog posts qu'on qu'on a sorti. Il y a plus de détails sur ce que je vous ai raconté mais surtout le repo de codex et open source. Donc n'hésitez pas à le clone à plug codex ou cloud code ou l'agent de code de votre préférence dessus et de poser des questions juste pour voir un peu comment ça marche. C'est une démarche assez intéressante. Bonsoir à tous. Euh je m'appelle Louis Chokel, je suis le CTO cfondateur de Piplex et je viens vous parler d'une solution qui va au-delà des skills et qui est donc un outil qui est fait pour être utilisé par les systèmes d'agent pour avoir des des solutions structurées et répétables. Alors, contrairement au Pony Piplex c'est une petite société, on est on est trois dans la boîte mais ça fait un an et demi qu'on travaille là-dessus. On a résolu un problème qu'on avait rencontré au contact des clients quand on résolvait leur problèmes et qui arrivent juste à à maturité aujourd'hui techniquement ça commence à fonctionner et surtout maintenant on a le agents en face qui qui sont prêts à s'en emparer. Alors pour donner quelques quelques détails, notre solution s'appelle méthode. Donc c'est complémentaire des skills. Les skills c'est les compétences, c'est les méthodes, c'est des choses plus précises. Et donc on a créé un standard pour ça qui s'appelle méthode sans les voyelles MTHDS. Donc on veut faire un standard ouvert et on propose une solution open source qui implente ce standard et que vous pouvez tester gratuitement. Et je vais vous expliquer du coup ce qu'on appelle des executable AI methods et vous aurez une démo à la fin. Voilà le contexte. Maintenant, j'ai vu tout à l'heure que tout le monde connaît assez bien Cloud Code et Codex. Donc c'est une révolution qui a qui a pris encore un ess encore plus important fin 2025 puisque le des seuils de capacité des modèles ont été franchis et on est passé de je délègue et je je suis assisté par l'A je donne des tâches complètes qui vont être réalisées euh par l'IA. J'ai pas besoin d'écrire le code et même dans une grande partie d'une grande mesure, j'ai pas besoin de relire le code. Ça nous Moi, je voulais faire un parallèle avec une révolution qu'on a connu à l'époque dans au 20e siècle. Au début, il fallait faire tous ces calculs à la main. Computer, c'était un métier pour des gens. Ensuite, il y a eu les calculettes, les ordinateurs et puis sont arrivés les tableurs et Excel. Et euh une conséquence de ça, ça a été une explosion de la quantité de calcul qu'on effectue. Chacun peut effectuer des calculs quand vous faites votre business plan, votre PNL ou des simulations euh industrielles, n'importe quoi. Vous faites des tonnes et des tonnes de calcul que vous auriez jamais pu faire à la main, il y a qu'une calculette. Et là, ça va être ça va être le même effet. C'est-à-dire que on a complété les human knowledge workers par des LLM qui les ont assistés pendant 2 3 ans et maintenant qu'on a des des euh des des agents autonomes et que en gros on n plus on a plus le bottlene neck de l'humain pour tout piloter mais qu'on peut les lâcher sur des grosses tâches qu'on peut avoir cinq cinq clocodes en parallèle ou cinq codex ou les deux et comme ça décupler son travail. On va voir une une explosion de la quantité de travail cognitif qui va être effectué par par ces systèmes dans toutes les dans toutes les sociétés. et y compris aussi pour des euh des besoins personnels. Et donc, je voulais euh souligner ce point. Pour moi, le le le l'effet le plus important, c'est pas simplement qu'on va avoir plus de software euh et que ça va coûter moins cher à développer, c'est qu'on va faire beaucoup plus de euh smart work euh effectué par euh par les machines. Et euh ça soulève une question qui est finalement qu'est-ce qu'on fait nous les humains dans dans cette histoire? Euh et donc voilà, je rentre dans le détail des business processés. Je vous ai mis quelques exemples. Euh les euh il y a beaucoup de choses qui sont du travail de créatif, mais il y a aussi des des process qui sont des process qu'on veut automatiser toujours de la même façon. Et c'est c'est là qu'on va parler des méthodes. Et donc ça inclut des process financiers comme traiter des notes de frais, des processes, traiter des candidatures, ça inclut aussi des tâches créatives parce que cré créer la créativité c'est aussi un travail avec des avec des process. Donc qu'est-ce qu'on fait nous les humains là-dedans? Euh est-ce qu'on est toujours aux commande? Et ça c'est un des vrais sujets. Moi ce que j'appelle le client in the loop dans le sens où l'humain n'est pas dans la boucle simplement parce que Lia ne sait pas le faire parce que si quelque chose que Lia ne sait pas faire pourra le se faire dans 6 mois ou dans un an. Donc le vrai sujet c'est de rester le client celui qui sait ce qu'il veut et qui sait donner du feedback sur le résultat. C'est lui qui sait s'il est content ou pas. c'est le client qui est roi. Et euh et donc ça amène le sujet sur la question comment est-ce que j'explique à ces machines vraiment ce que je veux qu'elle fasse euh et comment je peux m'assurer qu'elles ont bien compris, le vérifier et euh et euh c'est là qu'on est on a un un déséquilibre entre le monde des software développeurs qui a déjà connu son sa révolution euh avec Claude Code et Codex, on a des résultats magnifiques quand on crée du software. En revanche, pour les autres métiers euh qui travaillent avec des doc Word, avec des des PowerPoint, avec des des PDF et ce genre de choses, en fait pour eux, c'est pas encore on n'est pas encore au même niveau. La raison, c'est que côté software, en fait, on a plein d'outils qu'on qui existent depuis longtemps et euh qui sont complètement utilisables par les agents. Il y a les langages de programmation déjà. En fait, le langage de programmation, c'est une façon pour l'humain de dire à la machine ce qu'il veut qu'elle fasse. Euh et derrière, il y a un compilateur ou un interpréteur qui va le traduire en langage machine. Donc, c'est vraiment des loillages qui existent depuis longtemps pour traduire ce besoin. Et on a des outils qui vont qui sont là pour valider, pour euh valider la syntaxe, pour euh effectuer des tests, automatiser des tests. C'est ça qui fait qu'on a une ingénierie qui marche si bien dans le dans le monde de l'agentique pour le software. Maintenant pour les non tech il y a un problème c'est que la partie réflexion aujourd'hui assister les nonch dans la dans les parties intelligentes de leur travail il y a pas de langage aujourd'hui sur le marché il y a pas d'outil euh à part ce qu'on vous dit bah faites-le en anglais faites des bullet point donc ça ne permet pas de tester et de valider et de reproduire de manière systématique aussi bien que ce qu'on fait dans dans le software. Nous c'est ça le problème qu'on va qu'on va attaquer. Donc concrètement les projets qu'on voit depuis depuis 2 3 ans, c'était en 2024, ben vous prenez les requirements du non tech, les requirements de l'expert métier et vous donnez ça à une équipe de développeurs, ça devient un projet de développement de logiciel. des logiciels qui ensuite vont mélanger des promptes avec du code. C'est impossible à maintenir. En 2025, on a l'explosion du Vap Coding qui dit "Ou non tech, c'est pas grave, tu as qu'à prompter, ça va générer du code pour toi." Mais là, comme le NTE ne sait pas relire le code, tout ce que disait Céline tout à l'heure ne va pas fonctionner et ça va donner au bout de de quelques de quelques promptes un code qui est impossible à maintenir et à faire évoluer. Voilà. Là, en 2026 maintenant, les dernièr derniers outils là-dessus qui sont qui sont utilisés sont les edgent skills qui sont en fait des promptes bien classifié avec des explications pour l'agent pour savoir quand est-ce qu'il doit les intégrer. Donc ça, ça permet vraiment de contrôler le comportement de l'agent et ça marche très très bien pour certains types de tâches notamment pour pour guider des tâches bah de software comme le disait tout à l'heure Céline, c'est très très bien. Euh maintenant, il y a un problème, c'est que les les skills sont des problèmes qui vont être relu par l'agent à chaque fois. Déjà, il a besoin d'un agent pour comprendre ce qui ce qu'il faut faire. Euh, ils vont être réinterprétés, ce qui a un coût euh en token, en temps et euh ce qu'on perd, c'est euh c'est une partie du contrôle puisque la réinterprétation fait que il va pas toujours se passer la même chose à chaque fois. Et euh ça va être très difficile de tester par exemple, avoir des évales sur résultat d'une skill quand on quand on sait qu'en fait les agents vont faire du blabla, parfois passer par un chemin différent. Parfois dans la skill, on va indiquer à l'agent voilà la doc, voilà la sous skill que tu dois utiliser et puis il va pas le faire, il va le zapper. Parfois, on va lui donner 12 étapes, il va en sauter une ou une autre. Donc c'est difficile de passer en production avec tous ces avec tous ces outils. Euh la solution qu'on propose c'est euh ce qu'on appelle une méthode, c'est entre le code et les skills. Donc on a le côté structuré du code, contrôlé euh et on va dire bien exprimé clairement sans ambiguité. Et le côté skills qui est c'est du langage naturel qui exprime qui exprime des savoir-faire qui sont de l'ordre de tous les métiers, la finance, des RH, du marketing, de ce que vous voulez. Alors la grosse comparaison avec les skills, on me pose souvent la question finalement oui dans les skills, on peut aussi écrire des étapes et demander à l'agent de les de les répéter. Donc comme je dis tout à l'heure, Cloud Code ou Codex va réinterpréter à chaque fois et on va se retrouver avec des résultats différents. C'est la partie gauche. Avec les méthodes, vous pouvez traiter des documents en batch par exemple et vous aurez une orchestration déterministe où les étapes vont être faites systématiquement parce que c'est le logiciel qui pilote ça. Et ça va être des étapes qui peuvent utiliser différents modèles d'IA. On n'est pas limité. à l'agent lui-même et on va pouvoir faire des appels à des modèles d'oc d'extraction de documents parce qu'en fait moi ce que j'ai constaté dans les entreprises c'est que dès qu'on sort de la tech il y a 9 jusqu/ 10 qui partent d'un PDF euh on va utiliser des LLM des modèles de vision et des modèles de génération d'images aussi et on va pouvoir spécifier les outputs structurés qu'on veut obtenir systématiquement qui vont être validés et ensuite on va aussi avoir les traces auditables. c'est dire que chaque étape va avoir des éléments structurés et ce qui va permettre euh bah de rassurer tout le monde côté compliance, de savoir finalement qu'est-ce qui s'est passé, comment on est arrivé à tel ou tel résultat, mais qui va permettre aussi juste à à l'utilisateur de vérifier ce qui si ça se passe bien comme il voulait et de diagnostiquer ses problèmes mais dans le dans un dans un contexte où il comprend tout ce qui s'est passé pas avec du code Python. Euh donc je vais vous faire une démo euh où on va expliquer ce qu'on veut en langage naturel de de métier. Et je vais rassurer Sophie, cette fois-ci, on va pas parler de matcher des job offers avec des CV. J'ai prévu un US case un peu plus euh un peu plus amusant et euh dans le domaine de la créativité. Euh attendez, faut que je prenne la bonne fenêtre. Voilà. Euh voilà mon prompt. Euh l'idée c'est que propose présenter, tu peux faire zoom? Excuse-moi. Ouais, si ça te dérange pas. Merci. Je vais zoomer mais attention à la présentation. Ouais, ça marche. C'est bon. Euh donc l'idée c'est que on est dans un dans un contexte où on donne du travail à un agent euh Codex ou Cloud Code. Je vais lancer les deux en parallèle. On va voir si la version Codex est en betta depuis aujourd'hui. La version Cloud Code est un peu plus frodée. Euh en lui donnant en lui donnant un prom de vraiment la demité. Donc là, je suis dans la fashion design. Donc je je vais lui demander de partir d'un d'un d'une cible, par exemple les femmes été 2027 et un moodboard, c'est ce que donne les les marques. C'est un c'est un use case qu'on a vraiment rencontré auprès d'un de nos clients où il recevait des des demandes de magasin enfin de de marques de de vêtements pour créer euh des lignes et faire des propositions de vêtements sur à partir en partant d'un mood board. Donc les étapes métiers quand on travaille, quand on est créatif là-dessus, on commence par analyser la demande, euh générer des idées et ensuite pour chaque design, on va euh faire appel à nos à nos différents systèmes pour de créativité. Donc créativité de LLM, le fashion designer imagine une interprétation possible de la demande et ensuite les modèles de génération d'images permettent de générer tout ça. Je lance vite fait sur euh Codex, je lance la même chose sur Cloud Code. Donc ça c'est mes quelques minutes à tourner selon la complexité, on va dire entre 2 et 6 minutes. Donc je passe directement sur le résultat. Je vais faire comme Cines après. On va regarder si ça effectivement aboutit. Euh mais donc voilà ce qu'on va obtenir. Euh je vais vous montrer ça en plus gros. Euh le code généré euh je vais vous le montrer dans quelques secondes. Voilà. Euh je zoome aussi. Donc déjà on a généré des concepts métiers qui sont ceux du use case. C'est donc c'est l'agent ici. Là c'est c'est la version cloud code qui a généré ça automatiquement qui a défini les concepts avec lesquels on allait travailler. C'est quoi la fashion target? Donc c'est par exemple Women Spring Summer et cetera. C'est comme ça qu'il parle dans le métier. Moodboard analysis. Ben on va il a automatiquement intuité parce qu'il est fort en fashion design que les sous-attributs seraient ça le moo les les éléments les la couleur les matériaux et cetera. Et donc quand il va analyser le mot de bord c'est ça les informations qu'il va qu'il va obtenir et quand il va générer des designs voilà les choix qu'il va faire quel type de quel type de vêtement la silhouette et cetera. Donc tous ces concepts métiers créent dans le contexte un beaucoup de sens et ça c'est des choses sur lesquelles l'utilisateur par exemple c'est quelqu'un qui est product dans la dans la mode peut directement aller modifier ça en disant mais nous c'est pas comme ça qu'on appelle ça ou alors on a un sous-attribut tout ça est modifiable facilement à la main dans le code si ça vous amuse on a un éditeur on a une extension pour VS code qui qui permet directement de travailler sur ce langage et de le coloriser comme vous voyez mais sinon en fait nous ce qu'on fait plutôt d'habitude c'est qu'on demande directement à notre agent Cloud Code ou Codex de faire les modifications. Donc euh en plus de la définition de ces concepts, on a la définition des étapes. Donc le travail, ça va être euh défini comme ici. Euh donc le le pipeline s'appelle design garments from moodboard. C'est une séquence, vous voyez, on définit les inputs. L'input c'est le moodboard et la fashion target. Et l'input ça va être du HTML parce qu'en fait on va générer plein d'images et les présenter après dans un dans un dossier dans une page web. Voilà les étapes principales. Analyze moodboard, propose design, render all design et compose report. Donc par exemple analyse bootboard. Là c'est quelque chose de plus concret. C'est un col à un ll et vous voyez que ici on a le prompto llm qui va intégrer dedans les inputs fashion design et moodboard et ce qu'on veut qu' faut qu' qui soit traité. Tout ça a été écrit automatiquement par l'agent. Je vous montre un autre une autre partie intéressante. Par exemple la génération d'imagation d'images avec nano banana 2. Ici une génération d'images avec GPT image 1.5. Et euh ici ce qu'il va faire c'est qu'il va générer toutes ses images en parallèle parce que comme ça ça prendra moins de temps. Et tout ça c'est des choses qu'il a lui-même généré parce qu'il s'est dit que c'était malin. J'ai pas eu besoin de lui demander. La dernière étape c'est euh c'est ce que vous voyez ici c'est du code HTML. Il a généré lui-même un template HTML ce qui fait qu'à chaque fois qu'il va faire tourner ça sur un nouveau moodboard, ça aura toujours la même présentation. Si vous essayez de faire la même chose avec une skill, il va vous rajouter une minute de temps à la fin pour régénérer une page HTMLE complètement différente. Donc là, l'idée c'est que on a résolu le problème une fois et quand on le réutilise, ça fait toujours la même chose et ça a un intérêt, c'est que du coup on peut itérer dessus et l'améliorer. Et pour vous montrer que c'est utilisable vraiment sans lire le code, vous voyez que ici en fait, il m'a généré un flowchart. On est parti de la fashion target. On a euh ici les différentes étapes qui sont visibles. Attendez, je gagner un peu d'espace. Euh et on voit le le cheminement qui est fait depuis les inputs qui sont structurés et on arrive finalement étape par étape à rassembler toutes ces images. Le résultat pas le bon table. Euh celui-là non plus. Hop. Yes! Non celui-là. Ah si, c'est celui-là. Mais il faut que je sorte de l'onglet, pardon. Escape. Voilà. Euh quand vous faites le tourner quand vous faites tourner la méthode, vous pouvez ensuite analyser ici voir ce que ce que vous avez obtenu. Donc par exemple ici, j'ai euh je vais aller là en bas, on a analysé le moodboard. Voilà le résultat de l'analyse du moodboard. On a le mood, je zoome un petit peu. Mood, visible elements, tout ça a été structuré ici. Je peux voir que ensuite à partir de là, on a généré des designs comme celui-ci, euh des idées de pistes à suivre. Et quand je vais en bout de chain, je vais vous retrouver ici avec des images qui ont été générées euh par les différents par les différents modèles. Et à la fin, il a généré une page web. Donc voilà le voilà un des exemples que j'ai fait tourner tout à l'heure euh où il y a un pitch de la proposition de mode et à chaque fois l'image a été rendue bah là je me suis dit autant mettre les deux les deux meilleurs du marché Nano Banana 2 et GPT image 1.5 qui a rendu finalement le le même concept et décliner finalement ce que vous voyez ici. Initialement je trouvais ça un petit peu embêtant parce qu'on voyait que les propositions on voyait plus le moubard. Donc typiquement c'est là que j'ai fait une itération. Je lui dit "Ben en fait, est-ce que tu peux rajouter le moodboard en haut?" Et il je pense qu'il me l'a fait. Euh, j'en ai régénéré après. C'est doit être les exemples de la fin. Attendez, je vais aller ici. Voilà. Donc là, par exemple, voilà le moodboard qui a été qui était proposé par une marque. Et à ce moment-là, voilà les propositions qui ont été faites pour répondre à ce moodboard. J'ai pas travaillé dessus avec un fashion designer ou un product. Tout ça a été fait uniquement avec la compétence des modèles qui savent il savent déjà faire. Donc imaginez de mettre ça entre les mains d'un spécialiste. Et bon voilà, j'ai j'ai choisi le sujet de la mode parce que c'était visuel et euh en fait les mêmes les mêmes capacités on vont être là si vous voulez analyser des CV, analyser des euh des des appels d'offre et et dessus de cette façon-là. Voilà. Euh je vais aller regarder si mes agents ont livré du travail. OK, je suis pas logué sur code cloud. Donc ça ça c'est pas allé très loin. Euh j'étais logué sur Codex. OK. OK. Alors que fait Codexé euh Ouais, il a vérifié que Qu'est-ce qu'il a fait? Il a vérifié que les outils étaient bien installés. Ensuite, qu'est-ce qu'il a fait? Euh bah, il a repéré qu'il y avait déjà une solution qui avait déjà été faite avant. C'est l'ffet dévo. Ouais. Euh c'est dommage. Euh je vais ce que je vais faire c'est que je vais je vais me reloguer sur sur Cloud Code vite fait et comme ça on va pouvoir le faire retourner pendant que je répondrai à vos questions. Voilà que j'autorise. Voilà login successful et je le relance et c'est parti. Ben du coup comme ça vous allez voir comment il travaille en temps réel. Je vous écoute. Est-ce que vous avez des questions? Est-ce qu'il y a des questions? Oui, je savais pas que j'allais faire du sport ce soir. Euh ma question, elle est J'ai du mal à voir qui est le personnage qui vient utiliser le produit en particulier. Comment est-ce qu'on fait pour faire intervenir des experts métiers pour bah itérer sur la méthode? Alors euh c'est un la réponse est en train de changer à cette question. Euh initialement nous on a on s'était positionné comme un def tool, c'est-à-dire un outil pour les pour les ingénieurs et pour les aider à collaborer avec les experts métiers pour qu'ils aient cette ce langage là qui qui joue le rôle de en gros de de pierre de vérité entre l'expert à métier, l'ingénieur et l'agent puisqueen fait l'agent comprend aussi tout ce qui est tout ce qui est tout ce qui est indiqué là. Et on fournit une librairie Python. Donc c'est c'est des outils pour les ingénieurs à la base. Maintenant avec la gentique, on est en train de de passer à une nouvelle étape qu'on avait espérer atteindre un jour quand on s'est lancé il y a 2 ans. On s'est dit bah on va faire ça pour les dev et puis un jour en fait ça sera accessible à tout le monde. Comment ça peut être accessible à tout le monde? Là déjà vous avez Claude Code qui rend la capacité d'utilisation un petit peu plus simple mais c'est encore quand même des outils qui sont dans le terminal c'est pas voilà c'est pas pour tout le monde. En revanche derrière vous avez les outils adaptés au non tex qui sont en train d'arriver. Il y a Cloud Cowork, il y a Microsoft Cowork. Je suis sûr qu'Openir, il va nous sortir quelque chose. Enfin, c'est ce que j'ai cru entendre, enfin qui fallait qu'il se rattrape là-dessus. Et en gros, ça consiste à avoir un agent comme Codex sous le capot qui en fait est dans une S box sécurisée pour qu'il évite de faire tout et n'importe quoi. Et on met une interface utilisateur au-dessus adaptée au métier de la bureautique et à ce moment-là euh il y a plus qu'à travailler et à se comprendre avec avec. Alors là, vous avez vu tout à l'heure un flowchart un peu compliqué. En fait, chaque partie est simple et nous, on a un système qui permet de composer les méthodes entre elles. Donc, en fait, tu pourrais dire, j'ai une méthode qui crée des moodboards, j'ai une méthode qui analyse les moodbard et tu peux les analyser séparément. Et donc, en fait, on est en train d'inventer comment on met ça entre les mains des utilisateurs euh expert métier non tech. Deux fois, de fois. Voilà. Merci pour la presse. Euh comment on compare le l'utilisation un peu plus naïve, c'est sur juste directement tous les moodboard et qu'on lui dit débrouille-toi versus une utilisation plus structurée avec l'objet méthode, est-ce qu'on voit une vraie valeur ajoutée? Est-ce queon peut comparer le avec méthode, sans méthode? Comment comment on mesure la valeur ajoutée de ce concept? Alors euh déjà tout ce que tout ce qu'on a développé nous est développé en Python. Euh l'agent peut développer du Python. Donc tout ce qui a été fait là peut être fait directement par l'agent euh que ce soit euh en utilisant des skills ou en utilisant du code. Donc nous ce qu'on a créé finalement c'est une nouvelle façon d'utiliser ça en se disant il y a un moment quelque chose que tu veux répliquer 1000 fois 10000 fois. tu veux que ce soit fait toujours de la même façon et donc il faut que ce soit enregistré quelque part sous une certaine forme. Si c'est enregistré sous forme de Python, tu as tu vas avoir 60 % des tokens et de la lecture et de la compréhension qui est qui est liée à des des détails techniques qui parlent pas du sujet. Si c'est si c'est des skills, tu vas euh pas avoir la réplicabilité. Maintenant, si ta skill elle fait la même chose et qu'elle déroule et qu'elle va générer un promte et générer une image parce qu'elle va générer du code pour faire appel à GPT imag et cetera pour pour générer ça, tu vas avoir le même résultat. Mais si tu veux faire ça euh 10 fois par jour, en fait à chaque fois le modèle va réinterpréter. Donc ça ça va coûter de l'argent, du temps et tu vas tu vas pas avoir le enfin tu vas avoir une variabilité en fait contre laquelle tu peux lutter. C'estd que tu peux lutter contre les skills et essayer de leur dire non mais attends fais-moi toujours les trucs comme ça, fais-moi toujours le truc commeci. En fait, les skills ont pas été fait pour ça. Nous, on apporte une solution qui qui a été fait, qui a été pensée pour ça. Je voulais rajouter quelque chose d'important d'ailleurs, c'est que ça, tout ça, c'est open source et j'avais un compte-rendu euh des éléments importants qui est ici euh parce qu'en fait tous ces toutes toutes les solutions qu'on a qu'on a apporté euh finalement elles sont venues en résolvant les problèmes de de nos clients. Donc le côté langage déclaratif, ça consiste à dire ce que tu veux qu'il fasse sans donner les détails techniques. Donc ça déjà si tu veux si tu veux dire à ton agent de générer une image avec GPT avec avec Nano Banana, va falloir lui expliquer où est ta clé API Google, lui expliquer en gros comment utiliser l'API Google et ce genre de choses. Donc c'est là c'est droit au but. Je dis juste, je veux générer une image. Si je précise pas le modèle, il va prendre le modèle par défaut ou s'adapter au use case. Nous, on lui donne une liste de modèles qui sont adaptés à différentes compétences de dia, que soit pour les LLM ou pour ou pour les générateurs d'images. Tes inputs sont typés et tes outputs sont typés. Donc ça c'est assez en fait ça c'est très important parce qu'en fait si tu es si ton ton exécution est déterministe et que les outputs sont typés, ça veut dire que tu peux utiliser ça comme une API et donc tu peux l'utiliser en dehors de l'agent. le l'orchestration ici est pilotée par du software. Donc en fait, tuas tu vas sortir du cadre de l'agent et l'exécuter dans ton IT en étant branché sur via des API sur les automatisations sur ton CRM, sur tes emails et ce genre de choses et euh et avec une API qui va renvoyer un format JSON qui est celui qui est attendu et qui a été typé, qui a été validé et c'est comme ça qu'on fait du du software qui marche. On interrog le vocabulaire du du domaine, ce qui fait que les mots on enlève l'ambiguïté. C'est ça qui fait que les LLM vont toujours interpréter les mêmes choses de la même façon. On a l'exécution déterminée, j'en ai déjà beaucoup parlé. On a le fait que les agents et les humains peuvent lire la même chose et enfin on est un système ouvert. Donc en fait ces fichiers qui définissent les méthodes, c'est du texte. Donc c'est facile à partager, euh c'est facile à modifier pour les agents, mais c'est aussi ça veut dire que tu peux l'utiliser avec d'autres solutions techniques que la nôtre. Euh il suffit de créer un logiciel qui interprète les étapes où ça dit "I faut faire un col LLM avec tel avec tel prom, il faut générer un truc avec telle image." Tu peux le reprogrammer dans ton langage de programmation préférée, tu peux le faire en C++ comme tu veux. Et euh et nous le nous finalement ce qu'on fait là-dedans chez Pipplex, c'est qu'on propose d'adopter ce standard et c'est pour ça qu'on l'a pas appelé Piplex, on l'a appelé Mthds, on l'a mis sur un autre nom de domaine mthds.ai pour dire aux gens, aux créateurs de modèle, pour dire à à Open AI, pour dire à Anthropiic et pour dire à à Dust que euh ils devraient intégrer ça dans leur système. et nous on fournit un runtime de référence, c'estàd le logiciel qui applique la norme la fait fonctionner et notre logiciel il est open source, il est en Python. Si tu veux, tu peux le prendre et demander à à Codex de te le reprogrammer en en C si tu veux par exemple. Euh c'est libre et c'est licence MIT. J'en profite pour signaler que je vous ai mis un QR code ici pour pouvoir tester avec une clé API qui vous donne accès à tous les modèles. Donc derrière vous avez votre méthode peut utiliser tous les modèles de Open AI, de Entropique, de Google pour faire du nano bananana. Et on a quelque chose en plus que euh les autres fournisseurs de services multimodèles n'ont pas. C'est les modèles d'extraction de documents OCR, on a DPS OCR, on a Azure Document Intelligence qui sont branchés là-dessus. Euh ce qui fait que en fait pour extraire un document de 50 pages de manière structurée et cetera, ça marchera beaucoup mieux qu'avec des euh des des en gros les utilitaires de base qu'on trouve qu'on trouve habituellement. Ouais, je suis là, j'ai j'ai volé le micro. Euh une petite question sur comment on peut avoir une communauté de gens qui écrivent des méthodes. Qu'est-ce que vous êtes en train de faire pour promouvoir ça? parce que la valeur de ça ça va être avec combien il y a de méthodes disponibles exactement euh la réutilisabilité, le partage euh c'est un des gros points forts de du système. Donc euh déjà ce qu'on a créé, je l'ai pas présenté mais c'est un système de packaging. En gros, tu peux prendre un ensemble de méthodes et les packager pour dire bah voilà mes mes méthodes de traitement d'invoice, voilà mes méthodes de traitement de ceci ou de cela. Euh et on a créé un up de partage, il est là mthds.sh où tu peux directement les publier. D'ailleurs, ça fait partie de du plugin de la tuappelles la skill publish et ça va le publier sur notre sur notre hub. À ce moment-là, d'autres gens peuvent récupérer des méthodes et soit les exécuter directement parce que ça correspond à leurs besoins, soit les customiser finalement comme que tu customiserais un un bout de HTML ou n'importe quoi. On a vu ça par exemple entre des clients dans la banque et dans l'assurance sur des crédits immobilier. vous avez à peu près les mêmes besoins mais quelques petites différences donc c'est facile à customiser mais en fait ça va plus loin que ça parce qu'en fait comme les méthodes sont structurées et que les étapes sont faites sont définies clairement séparément avec à chaque fois les inputs et les outputs, les méthodes sont composables. Donc tu peux dire par exemple la troisème étape la troisème étape de ma méthode c'est la méthode de quelqu'un d'autre dans ton équipe ou la méthode de quelqu'un d'autre dans une autre boîte qui l'a qui l'a qui l'a partagé et tu vas pouvoir l'évaluer aussi et tester chaque chaque chaque méthode séparément. Donc on va c'est les fonctionnalités qu'on va rajouter dans la communauté qui sont ça, rajouter du feedback des utilisateurs et rajouter du feedback de d' val sur ces systèmes. Et le but c'est justement c'est de créer un réseau comme ça. Nous on appelle ça le knowhow graph parce que dans le monde des agents, on parle beaucoup de knowledge graph pour expliquer aux agents comment naviguer dans dans les les entités et les relations. Là si tu as un réseau de méthodes qui ont été partagées et qui s'appellent les unes les autres, c'est du savoir-faire. C'est du savoir-faire métier. Donc c'est le NRA. Ouais. Question. Merci pour la présentation. Juste, est-ce que tu peux commenter en terme d'approche et en terme de ici de davantage inconvénient? Donc le fait de faire du piplex, donc tu dis je passe une méthode déterministe à un agent versus je fais du NN où je crée une méthode déterministe et où j'appelle ponctuellement un agent pour ouvrir une tâche spécifique au sein de la méthode. Alors euh je vais te répondre juste une seconde puisque me demander combien euh combien de méthodes qui ont été créées aujourd'hui. En fait on est embryonnaire, on a chipé une version qui marche il y a 2 semaines. On est allé à la pit à San Francisco. En fait ce que je fais c'est que je vous le présente. Je vais et on va essayer de faire le maximum de bruit là-dessus pour que les gens les gens l'adoptent. Et un moment, c'est un projet open source, il faut que ça il faut qu'il y ait de l'adhésion, il faut que ça décolle. Donc essayez-le, donnez-moi du feedback, vous pouvez rejoindre le Discord et c'est comme ça qu'on va le faire démarrer. Maintenant, par rapport à des systèmes comme Nen, déjà en fait, il y a une grosse différence. Nen ça a été conçu en 2018. Euh c'est pas fait pour l'IA. Euh c'est fait du coup pour être utilisé par les humains à une époque où on disait que pour être facile à utiliser, ça veut dire qu'il faut une interface utilisateur où on clique avec une souris. Ça ça fait ça pour moi, c'est l'ancien monde euh qu'on connaît bien depuis les années 80, depuis euh Minosch euh pour ceux qui étaient là. Euh maintenant c'est le nouveau monde en fait facile à utiliser. Ça veut dire que c'est la machine qui fait tout et qu'elle sait me comprendre et qu'elle sait itérer avec moi et prendre mon feedback. Nous c'est comme ça qu'on l'a conçu depuis le début. pour le monde de de l'agentique. Donc ça nous donne des gros avantages et notamment le fait que ben notre format de fichier, il est lisible par un agent et qui parle que du la business logic. Alors que quand vous regardez un fichier un fichier NN, ça va parler de wrapping des PI et de la position des nodes à l'écran qui est complètement hors sujet et donc on a un outil qui est plus purement adapté à l'itération sur les sur les sujets de Business Logic. Maintenant, il y a aussi une autre différence assez importante. Tous nos concurrents, il me semble ont tous accès leur leur système de workflow sur le fait d'intégrer des connecteurs avec tous vos outils, ce qui est hyper utile bien sûr, votre email, votre CRM et cetera. Nous, on a décidé désibérément de pas s'occuper de cette partie-là. on s'est dit bon on verra plus tard ou ça va se résoudre tout seul ou alors peut-être un jour on aura un truc qui s'appellera cloud code et qui fera des connecteurs comme ça pour nous sans qu'on ait besoin de s'en occuper en fait concrètement ce qu'on voit ce qui fait ce qui résulte de ça c'est que nous on s'est vraiment concentré sur la partie intelligence en fait un LLM qui structure l'information qui passe la main un autre LLM qui passe la main un générateur d'images et cetera et cetera et le fait de devoir d'enchaîner plusieurs cols avec de la avec des étapes structurées ça ça permet d'avoir du déterminisme et ça permet d'avoir de la qualité en gros ça permet de prendre un gros problème et de le spliter en petites étapes. Et si chaque petite chaque étape est petite et bien structurée, à ce moment-là, vous avez une qualité euh une fiabilité nettement supérieure et vous pouvez commencer à vous dire je vais le chipper en production sur Napi euh maintenant on est dans un nouveau contexte où pour la partie connecteur mais en fait c'est l'agent qui va vous faire les connecteurs. C'est Cloud Cower qui aura déjà ses plugins intégrés ou Codex qui aura ses plugins intégrés. On aura en fait jamais besoin de t'en occuper nous. Donc voilà. Et donc concrètement, ça veut dire aussi par rapport à N10 qu'on peut mettre un un module piplex dans un workflow Nend pour la partie intelligente. Euh on a un module N10 qui est en open source. Voilà. Et ben je vous propose encore une fois de remercier Louis. Merci beaucoup. Merci beaucoup pour les pour les crédits. Bah donc du coup si vous êtes curieux que vous voulez tester, bah n'hésitez pas et faire un retour du coup. Et il nous reste le dernier talk de la soirée avec Stan. Merci. Et ton ordi, il est là-bas. Non, ça c'est moi. J'ai fait tomber. Pardon. Je Bonsoir à tous. Je crois qu'il faut que tu un share pour que je cher Ah oui oui. Non, il va il va il va le faire. Euh cool, merci de enfin bonsoir à tous, je suis STL, je suis le cfondateur de Dust. Avant, j'ai travaillé comme vous pouvez le voir sur mes stickers. J'ai aussi un sticker OpenL parce que j'ai travaillé chez OpenL il y a la préhistore de 2019 à 2022 et je faisais de la recherche sur les capacités de raisonnement mathématiques des modèles de langage entre GPT2 et GPT4. Euh ce soir, j'ai envie de vous parler de l'exploration d'une hypothèse qui est est-ce qu'on est en train de rentrer dans la dans la ter loop heror? Je sais même pas comment le traduire en français. Dans la loop externe. Pourquoi loop externe? par contradiction avec la loupe interne où pendant c quelques dernières années, il y avait beaucoup de travail qui étaient fait sur le fine tuning de modèles à certaines tâches et c'est vrai qu'on voit des modèles qui sont de plus en plus bons et et donc il y a une question à se poser sur comment extraire le maximum de de valeur de ces modèles là et en fait il y a une tendance quand on la regarde et donc je vais essayer de vous décrire un peu la tendance qu'on peut voir depuis l'été dernier qui est assez intéressante. Ce papier, c'est un papier qui a été fait juste après la le l'acquisition d'une médaille d'or en IMO. Donc les AMO, c'est les olympiade de mathématique international. Euh donc c'est 18 22 ans, je crois, des exercices assez chauds. Moi, j'ai jamais réussi à en faire en entier. Euh il y a cinq cinq exercices 5 heures. Euh et par contre ce qui est intéressant c'est que c'est la théorie constante donc c'est plutôt des puzzles mathématiques que de la recherche en mathématique. Et donc Google a a eu une médaille en allémo et juste quelques semaines après des papiers qui sont des Chinois euh alors attendez je essayer de sortir ça je pas voilà euh ont reproduit le résultat qui a été d'ailleurs vérifié et ici en fait ils ont pris le modèle GMID 2.5 5 Pro qui était le modèle de Google de State of the de l'époque et ils l'ont juste plongé dans une dans une dans une organisation agentique. Et donc dans ce cas-là, ce qu'il faisait c'est qu'il faisait un premier step, il y avait un proposeur qui essait de proposer des solutions qui de donner solution à un verifier. Le vérifier essayait de vérifier les solutions. Euh il y avait je crois dans le papier, il y a cinq verrifiers ou Ouais cinq cinq verifiers. Et euh ce le verifier va dire "Ah non, je pense que là c'est un peu un passage en force." euh va donner un feedback, va renvoyer le la vérification négative au proposeur, le proposeur continue à tourner et ça tourne comme ça jusqu'à ce que les cinq vérifyers disent "On est all good, on est tous contents de la solution." Et là, on prend la solution et on l'a fait évaluer par un humain pour voir si c'est valide. Et en faisant ça, et ça donne génère, il y a cinq problèmes, ça génère cinq solutions et ça obtient une médaille d'or en AO, ce qui est quelque chose d'assez impressionnant. Je sais pas si quelqu'un déjà participé au ici. On est vraiment nul, c'est fou. Les Américains sont là. Ouais, on est parti. Et ça c'est un autre autre papier qui était juste après de Bidance. Bidens, ça fait plein de de maths formelles. Les math formell pour rappel de plonger les maths dans un langage de programmation où on redéfine toute une axe automatique dans le but de pouvoir vérifier les mathématiques de manière mécanique. Donc l'intérêt c'est qu'on a en fait on on plonge les maths dans un exercice de programmation parce qu'en fait le le théorème est une le théorème liumême est un type et la preuve est un une implementation de ce type-là. Et donc là où c'est bien, c'est qu'on peut générer plein d'excès, on peut essayer de générer plein de preuves et le système formel va les vérifier de manière automatique. Et donc eux, ils ont passé des années Bance, mais des années, ils ont commencé quand moi j'étais chez Open à funer des modèles sur des preuves de Lin. Donc Lin, c'est le système formel que tout le monde utilise en ce moment pour faire des maths formel et de Lia. Et un jour, cet été, ils sont dit "Ah, on va tout [ __ ] à la poubelle." Et en fait, on va donner à Jimny 2.5 Pro à l'époque aussi, on va lui donner accès à une Sbox qui a l'IN installé et on va lui donner les mêmes tools que un humain et on va voir quel résultat on a avec ça. Et en faisant ça, ils ont réussi à avoir des résultats aussi bons qu'avec leur modèles ce qui sur lesquels ils avaient travaillé de find tuning sur des problèmes de de de mat formel pendant pendant des années. Donc ça c'est impressionné parce que là encore on voit un mod, on prend le modèle state of the on prend sur API, c'est disponible à tout le monde, on plonge dans 100 lignes de code et on arrive à atteindre le state of the dans un domaine sur lequel il y avait beaucoup de recherches qui av été faites. Codeer, c'était à peu près la même époque, je crois que c'était en septembre. C'est Google qui ressort un un alors ils ont un peu raté leur annonce puisque avec tout ce s'est passé depuis et surtout la semaine dernière. Mais donc il c'était un des premiers à sortir un une approche de recherche de vulnérabilité avec des modèles. Encore une fois c'est pareil, c'est un modèle plongé dans un réseau agentique avec qui est assez structuré. Ici il y a un agent qui a accès à un environnement qui va essayer de proposer des des vulnes. Il y a un validateur qui essaie de de vérifier patch review. Je sais pas trop ce que ça fait mais j'imagine que ça ça essaie de vérifier si le POC marche bien et ça font du feedback, ça tourne jusqu'à avoir des vulnérabilités qui sortent. Hardwk d'open AI c'était bah octobre de 2025. Pareil, c'est une approche à la recherche de vulnérabilité qui ressemble encore une fois exactement à la même chose. Alors ce qui est mar c'est que ça a été réalisé hier, c'est accessible en ligne. Je l'ai fait tourner là sur notre pardon. J'ai fait tourner là sur notre IPO et donc vous pouvez utiliser. Je pense que c'est exactement ce qui est fail. On recommence. Je pas en haut. Toujours pas. Essay de me reconnecter au cool. Est-ce que tu peux rejoindre le meeting? Hop là. Donc c'est c'est assez intéressant parce que c'est exactement hardb qui tel qu'il a été décrit en octobre et qui est maintenant disponible. Alors ce qui est marrant c'est que là j'ai reloadé il y a il y a à peu près une demi-heure 1 heure. Il était encore en train de scanner il était à 1029 commit. Là il a 1151. Il scanne depuis ce matin. Ça fait 6h. J'ai vérifié quand même que c me coûtait pas des tokens parce que là je pense qu'il en est à au moins 10000 dollars de de spend mais moi ça me va si c'est gratuit. J'y vais. Et donc il est en train notre ripo et donc c'est il a vraiment commencé pareil à pas faire un strat modèle. Donc en gros il y a un système agentique comme je descrivais là où il commence par faire un stret modèle. On voit la petite la petite flèche ici. Ensuite il va avoir il va passer ce strat modèle à des agents qui vont chercher des vulnes. Il s'avère que de manière intéressante l'approche de codex cyber le bon nom Codex Cyber c'est de passer commit par commit. Donc il prend votre historique pendant 2 mois et il passe commit par commit dessus et il essaie de trouver des vulnérabilités dans chacun des commits. Ça passe probablement par une phase de validation derrière. On a moi j'ai vu tout à l'heure il y avait il y avait un certain nombre de vulnérabilité, il y en a certaines qui ont disparu et cetera et ensuite ça passe à travers ce système de validation. ça a émit des des vulnéraités possibles plus récemment non alors moins récemment et plus récemment la même en même temps Claude donc leur leur leur description d'avoir trouvé plein de vulnérabilité dans mode ZIA pareil ils prennent ils prennent Claude Opus et là ils font passer dans un système assez simple c'est qu'ils font passer sur chacun des fichiers donc c'est pas commit par commit c'est fichier par fichier ils y vont en mode sans réfléchir ils essayent d'aller trouver des vulvités ou des des intérêts des choses intéressantes dans chacun des fichiers après ils ils agrègent ça probablement de manière par groupe pour essayer d'aller trouver des vulnées dans un repository et ils ont fait beaucoup de bruit avec Claude euh Mythos et c'est assez intéressant de voir comment ils l'ont axé sur la recherche de mabilité. Un autre exemple auto research de Carpy, un peu pareil, euh c'est vraiment un script. Donc là c'est il y a même pas vraiment de réseau agentique, c'est vraiment un agent qui a un travail et chercher d'aller travailler contre une contre un résultat vérifiable et qui descend. Ce qui est hyper intéressant dans tous ces papiers et dans toutes ces approches, c'est que dans aucun de ces blocks, vous pouvez regarder tous les blog posts, il y a nulle part marqué le mot training, ce qui est vraiment un changement qui a eu lieu en en depuis cet été. Il y a plus de fine tuning de ces modèles là. Ils ont arrêté de fine tuner pour s'attaquer aux problèmes. Ils s'attaquent aux problèmes en donnant des tools à des agents et en essayant d'orchestrer ces agents pour en tirer la le plus de valeur. Donc ça pose une question euh intéressante qui est euh euh c'est euh le cette hypothèse euh que le gros des capacités de raisonnement ou de la valeur qu'on va réussir à sortir des agents va venir de l'amélioration des modèles de base évidemment mais aussi de la manière dont on va orchestrer ces agents pour réussir à faire une tâche. Et donc c'est aligné exactement avec bah les vues un peu actuelles de Noan Bronze Open AI quand il parle de multiagent civilizations. André parti quand il dit de system prompt evolution donc c'est d'arrêter de traîner les modèles mais juste d'essayer de faire évoluer un peu le contexte ce à quoi accès et puis c'est très c'est très bitter listen pour ceux qui connaissent rich saton de bitter liston comme quoi plus de compute plus de comput euh donc l'idée c'est de se dire de quoi on a besoin pour essayer de de quels sont les les les le substrat de base de cette approche à une loupe externe. La première chose c'est de fournir les bons outils. La deuxième chose, c'est de fournir la bonne orchestration entre agents. Il s'avère que pour les outils, c'est un petit peu résolu. On l'a vu dans la présentation de Céline, l'outil universel, c'est l'ordinateur. Et aujourd'hui, n'importe quel agent qui se qui vaut quelque chose, on lui donne une Sbox, on lui donne un ordi, on lui donne la capacité d'exécuter du code sur cet ordi. Et c'est le seul outil dont il aura besoin jusqu'à la fin des temps puisque c'est le seul outil intéressant. Donc MCP avec du web et avec du computer use, c'est un peu l'outil universel sur lequel l'écosystème a convergé. Donc il y a pas vraiment de problème à résoudre ici. Par contre, dans chacune des approches qu'on a vu, on peut se demander est-ce qu'il y a une architecture agentique enfin de de de réseau d'agents universel qui pourrait être intéressante. Et donc tout le but de ce de ce de ce T et du petit projet sur lequel que je vais présenter, c'est d'essayer d'explorer l'idée de se dire ça serait quoi l'orchestration agentique universelle qui marche pour n'importe quel problème. Et donc je vais essayer de présenter le projet. Donc ce projet là, c'est une exploration de une solution à ce problème là, d'essayer de trouver une organisation agentique universelle qui prend tous les problème là, ça va être vachement technique. Franck, tu peux venir tenir le micro s'il te plaît? J'ai préparé une blague. Alors, demander à Franck de tenir le micro, c'est le grand luxe. C'est comme avoir des toilettes en or chez soi. Ça coûte très cher à la minute. Merci Franck. Euh, parfait. Alors, je vais me connecter sur la machine et je vais lancer une expérience. Euh donc le un des un des sujets sur lequels on a on a on s'est amusé, c'est la juste zoomer s'il te plaît? Tu peux zoomer pour Ouais, je zoom. Oui, merci. Euh un des sujets sur lequels on a pas mal expérimenté, c'est la recherche de vulnérabilité. C'était quelque chose qui était pas trop à la mode en septembre octobre, qui est devenu très à la mode récemment, mais qui est intéressant parce que c'est un problème qui est un peu de type NP complet. Donc exactement les problèmes qu'on aime bien, c'est très dur à chercher, assez facile à vérifier. C'est-à-dire que vous allez chercher pendant longtemps, mais une fois que vous avez trouvé un truc, il est plutôt facile à vérifier. Donc ça se porte bien à ces problèmes de recherche un peu intensive. Euh donc en gros, search c'est quoi? C'est un système et il y a une qui vient avec où on crée des des expériences et ces expériences sont ont deux choses. C'est le profil de l'agent, donc c'est lui donner un peu un prompt. Je peux vous montrer à quoi ça ressemble. Je vais zoomer. Hop. Alors euh on va zoomer encore un peu. Donc par exemple le prom de sécurité, il est là. C'est un promete assez long qui explique bah ce que c'est d'être un bon chercheur en en en en vulnérabilité. Il explique aussi un peu tout le système dans lequel est plongé l'agent. Il explique comment créer son report et il il donne quelques exemples de de bon report de vénorité. il donne aussi accès au docker file parce que la deuxième définition d'enter file qu'on lui donne. Donc si je vais chercher le docker file security, on essaie de donner les outils qui sont typiquement intéressants pour faire des recherches de sécurité. Donc il y a les outils pour travailler avec l'ordi typique mais aussi un un faiseur un un cou pour faire de la pour faire de la de la pour simuler des des OS et cetera. Et on lui donne aussi du quoi de pour ceux qui sont experts du Frida, du R2 Pipe et cetera. Donc c'est tous les outils un peu typiques d'un bon chercheur de vulnérabilité. Donc ça c'est la définition de l'agent. Et ensuite un problème, c'est assez facile, c'est la question qu'on lui pose. Et donc on peut poser les questions qu'on veut. La question qu'on peut poser ce soir euh c'est par exemple d'aller chercher des venir inviter dans le code source qui a liqué de cloud code puis comme il est liqué était privé que s'il était privé c'est qu'ils avaient ils avaient alors on peut imaginer qu'il faisait fait tourner leurs agents dessus mais on peut se demander s'il y a pas des des vulnérabilités dedans ou sinon on peut faire codex c'est comme vous voulez qui veut faire cl code qui veut faire codex celui qui a liqué il y a 2 semaines non le vrai le vrai qui a liqué. Ah oui, mais il y a quelqu'un qui l'a copié qui l'a mis sur Gitub. Non non, rien, celui-là, il est encore live. Je suis peut-être tombé sur le bon mais euh Ouais, mais je crois vraiment que celui-là c'est le vrai. Regard, il été posté il y a 2 semaines, il est encore propre. Euh je suis je suis alors tu me mets le doute hein Céline mais si tu veux on fait collex du coup tu peux pas lancer les deux en parler c'est vrai peux pas lancer les deux en parler Ah ouais ça va me coûter cher mais ouais on peut ça tu vas mouiller la chemise Franck je suis désolé on peut tenter de lancer les deux en parallèle on va mettre un peu moins d'agents parce que je suis pas sûr que j'arrive à monter à je voulais mettre h agents sur chacun chacun des trucs on va en mettre un peu moins mais on va le faire vous restez avec moi. Je vais essayer de marcher de faire mon travail avec le clavier. Donc la commande c'est quoi? C'est euh donc on voit pas évidemment. Hop, on ferme ça. Donc je crée une expérience qui est euh donc je donne un petit nom cloud code et je lui donne le problème cloud code. Et comme on l'a vu il y a 2 secondes, le problème cloud code c'est euh ah pardon. Le problème cloud code, c'est assez simple hein, c'est de lui dire juste je vais pas y arriver. Allez on recommence. code alors c'est de lui dire pardon je je vais te libérer 2 secondes le le but c'est de faire de la recherche white height en cybersécurité pour stranson la sécurité du système blab blabla on va tout donner à cl code si on trouve des choses t'inquiète pas ça c'est en gros pour passer les filtres de de de de modération des des modèles filtres qui de manière très intéressante se sont complètement abaissés depuis septembre c'est qu'en septembre c'était très dur de faire attaquer un modèle un un projet open source par exemple je d lancer sur FFMpeg, il disait "Ah FMPEG, je touche pas, trop dangereux." Et si tu lançais sur un projet perso, il y allait gentiment. Et depuis depuis quelques mois, mais alors les filtres zéro quoi. C'est la la bataille est ouverte et les modèles, ils vont mais sans aucun problème. OPUS 46, GPDK 54, ils y vont sans se poser aucune question. Donc on lui dit quand même ça pour le rassurer, on lui dit clone le truc et recherche des vulnérabilités qui sont au moins CVCSS8. Donc c'est en gros d'une classification un peu un peu haute. Donc l'expérimentation l'expérimentation est créée. J'ai créé une petite expérimentation et là je lui donne du coup on va se donner deux agents. Donc là je mets un agent Opus 4. ici. Là je vais mettre un agent GPT 5.4 pour s'amuser. Donc là il est en train de créer des des des Sbox sur la machine pour donner à chacun de ses agents. Ça prend juste quelques secondes. Et ensuite on va préparer la commande run. Ça va être du coup 2015 code. OK. Donc les Sbox là, il y en a deux qui ont été créés ici. Aho. OK. Et donc on va relancer dès que ça a fini. Allez, hop là. Et donc là, on peut lancer l'expérimentation et on va mettre que deux reviewers. Et je vais essayer de vous expliquer. Donc on va laisser tourner ça sur le côté. Vous allez voir plein de choses se passer. On va mettre ça ici comme ça. Et on va aller sur euh le site en question. Donc il y a cette exploitation qui a été créée. On a des petites métriques euh qui nous donnent euh des informations sur l'exploation et donc qu'est-ce qu'il y a dans une exploitation? Merci Franck. Euh donc dans dans cette expation, il y a donc des agents. Les agents, ils ont comme je l'avais dit leur leur profil et leur soundbox. Et l'idée de search, c'est de permettre à ces agents de collaborer à travers un système de publication. Donc là, il y en a pas encore puisque viennent de se lancer dans le dans le travail. Mais l'idée c'est de se dire quel est le système le plus simple et pur qu'on utilise nous en tant qu'humain pour collaborer sur des sujets compliqués? Bah c'est la recherche académique et donc c'est le fait de pouvoir publier quelque chose, que cette chose-là soit reviewée et que ce faisant le knowledge se dissimule se enfin se se se se propage dans le dans l'organisation des agents ou des chercheurs. Et donc les agents ils ont quoi comme tools? Ils ont une web search, ils ont accès à une soundbox pour exécuter des commandes, ils ont une un jeu de tools pour interagir avec le système de publication, ils ont un jeu de tools pour parce que juste parce que c'est drôle est éditer leur propre système prompt. Donc c'est une manière pour eux d'apprendre ou de prendre ou de noter les choses, même si aujourd'hui les agents sont plutôt posttrainés à créer des fichiers markdown sur la Sbox pour prendre des notes. Et enfin, ils peuvent aussi émettre une solution qui est une moyen de dire bah de toutes les solutions qui ont été publiées jusqu'à maintenant, je pense que c'est celle-là la plus intéressante. Et donc là, il est en train de tourner. Bon benah finalement on va pas faire tourner sur codex, ça va pas prendre plein de temps et de toute manière on a pas le temps. Donc je vais vous montrer le résultat de cla que j'ai fait tourner avant. Mais en gros là, comme vous pouvez voir euh ils sont il est en train de tourner, il est en train de cloner, il est en train de regarder les fichiers, il va regarder, il va regarder, bref, il va explorer quoi. Et euh ce faisant à un moment, il y a peut-être un agent qui va créer une publication qui va être du coup, on va envoyer une notification aux autres agents pour se dire "Arrête ton travail et va la reviewer." Et il y a ce système qui se met en place et des publications qui se font générer. Donc si on regarde une expériement de passé taclude code je l'ai rené il y a longtemps désolé c'était il y a 10 jours. Et donc cette expation là en gros j'ai dû la faire tourner pendant 1 heure j'imagine avec avec h agents. Désolé ça prend un peu de temps parce qu'on reloade toute la dépense de token. Euh ça m'a coûté 900 dollars donc c'est pas c'est un petit prix quand même. Euh et euh si on regarde les publications euh là on peut voir du coup euh toute la l'ensemble des publications. Donc il y en a qui sont passées avec des strong accept, il y en a qui ont été euh rejected. Chacune des publications essae d'après le prompt, si on en regarde une, de euh montrer quel est le code vulnérable, de donner un attaque scénario, de donner un proof of concept et cetera. Et donc le système de solution ici est assez intéressant. Bon, alors là, il est moins intéressant sur celui-là parce qu'on on voit qu'il y a plein de trucs intéressants, donc les agents savent pas trop donner de la tête, mais sur d'autres problèmes euh plus saillants, on voit souvent des solutions qui émergent et qui pour le moment assez intéressant parce qu'on a pas besoin de regarder toutes les solutions, toutes les publications qui étent en général, on peut se concentrer sur celles où les agents ont dit bah je pense que c'est celle-là la plus pertinente. Et donc si on regarde sur le les publications qui vient générer euh sur Cloud Code, euh si on va regarder euh celle-là la première euh reposer contrôle pass before authentication. En gros, il y a le mode moin P de moin P de cloud. Euh vraiment l'utilisez pas quoi. Mais vraiment l'utilisez pas. En gros, quand vous faites Dhp, donc c'est le mode print, donc ça veut dire que ça lance pas cloud code, ça fait juste un une loupe d' d'interaction et ça printe juste dans les CD. Il est complètement buggé. En gros, ils font aucune prévalidation des serveurs MCP, des preflight exécution des serveurs MCP. Donc si vous faites cloud code P sur un ripo malveillant, vous êtes poné mais instantanément. C'estàd qu'il y a tout qui s'exécute sans aucune vérification. Alors tout le monde personne utilise le moin P. Donc c'est pas trop grave. C'est pour ça que c'est encore là. Mais c'est intéressant parce que depuis que le le le repo de cloud code a été sorti, il y a des CVE qui sont sortis publiquement qui décrivent exactement ça. Donc voilà un peu ce que Search. Ce qui est intéressant, c'est vraiment cette capacité de prendre n'importe quel problème. Donc, on peut le lancer sur des problèmes de physique quantique, on peut le lancer sur des problèmes de de math, on peut le lancer sur des problèmes sur le problème que vous voulez. Et cette architecture de publication, de review et d'avancement euh permet de de s'attaquer à un peu n'importe quel problème. Euh notamment alors ça c'était en c'était en on va le regarder tourner parce que c'est beau. Euh le ça c'était au moment où on a commencé à s'amuser avec ça avec un copain qui est qui est aussi de l'X et qui est qui est aime beaucoup la sécurité. Euh genre en en septembre on commence à à didouiller un peu avec. On lance sur Thor et on trouve mais deux vulnes mais magnifiques. Donc c'était deux vulnes qui faisaient à peu près la même chose qui permettai à n'importe qui de faire tomber toutes les nodes de sortie de Thor. C'estàd que Thor, je sais pas si vous c'est un réseau c'est un réseau qui permet de d'anomiser le trafic. Il y a des nœuds de sortie, c'est les nœuds qui sont qui sont qui vont faire la requête finale vers le serveur. Et c'était c'était les deux vulnérabilités permettent de n'importe à n'importe quel client de faire tomber les nœuds de sortie de manière arbitraire et sans aucun délai et sans aucun sans aucun sans aucune probabilité. C'estàd qu'on les faisait tomber de manière systématique. Donc ça veut dire qu'on était cette vulné permettait de faire tomber Thor le réseau Thort entièrement jusqu'à ce qu'il le patch. Donc évidemment comme on est des on était des chercheurs de vulne responsables, on les a mis sur Accord One euh et elles ont été acceptées. Ils nous ont même payé 1000 dollars pour chacune des vulnes qui couvre à peu près le qui couvre à peu près le coût des tokens. Euh ce qui est intéressant dans donc dans tout ce dans tout ce domaine là, c'est que quand on est dans quand on parle de la de la ter, la la recherche est un peu accessible à n'importe qui puisque il y a pas besoin d'avoir une infrastructure de training. Vous avez juste besoin d'une clé open AI ou ou anthropique ou Mistral ou Google pour utiliser des modèles qui sont extrêmement forts et essayer d'explorer un peu d'un point de vue recherche ce qui est possible de faire quand vous les organisez et que vous les agencez de manière intéressante. Et je pense qu'on est aussi au tout début, on est juste en train de scratcher quand vous voyez là toute la liste des des méthodes qui ont été montrées publiquement depuis quelques mois, elles sont toutes custom, très spécialisé à un certain use case. Donc je pense qu'il y a déjà réappliqué ça à plein de use cas différents, mais aussi essayer par exemple comme nous on l'a fait, d'aller chercher un peu une des approches plus universelles. Donc voilà, vous pouvez explorer le le repo sur searched. C'est c'est vraiment une exploration et je vous laisse aussi un certain nombre de liens qui ont à voir avec tous les papiers qui ont été qui ont été décrits. Merci beaucoup. Question? Oui, désolé, c'est plus proche. Oui, bonsoir. En quoi ça peut servir à faire de la physique? J'ai pas compris le lien entre moi mon je me prends d'une petite side quest d'essayer de comprendre quantum computing. Donc je lis le livre de Nilseng et Wang Quantum computation and quantum information. Et en quantum computing c'est de le la physique et des cubits, c'est assez simple mais ce qui est assez dur c'est de c'est d'aller trouver les algorithmes qui te permettent de d'aller de sortir l'information du système quantique. Le système quantique a l'information parfaite mais c'est l'algorithme pour aller le sortir sont assez compliqués. Par exemple, pour faire la facturation de nombre premier, tu vas faire une phase estimation de du nombre et c'est en fait tu as pas le droit la nature te laisse pas sortir l'information d'un coup et donc tu as plein de tricks pour aller chercher un bout d'information qui va te permettre d'accélérer le la computation comparé à la computation classique. Donc c'est tout ça pour dire c'est que par exemple c'est un problème c'est c'est un environnement les mathématiques sont assez simples, c'est de l'algèbre linéaire assez simple mais les algorithmes à trouver sont assez compliqués et le nombre de personnes sur terre qui qui cherche ces algorithmes là est pas si grand que ça qu'il en a plein en France et c'est cool mais tu pourrais très bien imaginer lancer des agents là-dessus pour essayer d'aller chercher des algorithmes nouveaux pour répondre à des problèmes que tu pourrais attaquer avec du quantum du quantum computing en gros c'est on pense que quantum computing tu tu tout turn en parallèle et donc tu peux tu peux paralléliser et donc accélérer complètement n'importe quel problème. C'est pas du tout vrai. Il y a qu'une que des classes petites de problème qu'on sait faire et un des locks, c'est l'algorithmique et tu as encore des découvertes énormes sur ah tiens, j'ai trouvé l'algorithme en passant par la porte de droite en haut à gauche, en faisant une petite danse, tu arrives à sortir la le bon bit, la bonne information pour en fait accélérer un problème hyper intéressant. Donc c'est un exemple, c'est vraiment comme faire de la la recherche. Mais du coup question, comment est-ce qu'on définit l'espace de recherche pour les agents? Et en parallèle, comment est-ce qu'on définit par exemple dans ton cas les reviewers, c'est quoi les les conditions qui doivent check? Bah en fait les les là le le système est parallèle puisque le l'agent est en même temps chercheur et reviewer. Donc on essaie de lui donner un prompt pour lui dire c'est quoi une c'est quoi un bon pour la vulser. En gros, c'est juste purement prompté, hein. C'est c'est quoi un bon poc? Un bon POC, c'est un PO qui est reproducible. Les agents sont plutôt mauvais aujourd'hui encore à faire des bons poc. C'estàd qu'il trouvent des vulnes, ils trouvent des endroits et après il te il te bouchent un peu en disant "Ah mais c'est facile, regarde, je t'ai écris un petit programme qui appelle juste cette fonction." Mais c'est cette fonction en fait, elle est trois niveaux en dessous et tu peux pas l'accéder de cette manière-là. Donc faire un poc reproducible réel, c'est important. Et donc prometer les reviewers à dire bah review le POC et essaie de t'assurer qu'il est reproducible. C'est un exemple de Vorch mais on est très c'est un système qui est très euh et hein, c'estàd qu'il y a pas de il y a pas de il y a pas de système. C'est tout juste le but c'est de laisser tourner. Euh dans le cas de faire du si on pouvait appliquer si on appliquait ça avec euh avec des maths formels, tu donnerais juste là dans ce caslà, tu auras un système tu aurais vraiment une vérification formelle. Donc tu aurais quelque chose qui vérifierait vraiment. Mais je pense que le l'idée c'est juste de se baser sur le fait que l'agent va être capable en même temps de chercher mais en même temps de vérifier ce que d'autres agents ont trouvé. Et donc il y a il y a que ça c'est la manière euh si le claim c'est que du coup vous avez trouvé une orchestration un peu générique universelle qui s'adapte à tout. Est-ce que vous avez testé du coup sur des benchmarks ou des gens ont utilisé une autre orchestration plus spécifique genre AMO? Je sais pas si ça serait faisable mais pour comparer les résultats Ouais. Ouais. En général tu je pense qu'aujourd'hui tu te fais encore tu te fais encore battre par une organisation spécifique. Euh pourquoi? C'est parce que le quand tu vas en gros ça c'est le but c'est d'appuyer à l'accélérateur à fond sur on donne tout on donne toute puissance à l'agent. On réfléchit plus, on met plus de le on met un harness vraiment minimal. Donc vous avez tous harness a été défini donc c'est parfait. On met un harness minimal et on met à fond sur le côté, on donne toute puissance à l'agent quoi. Euh comme ces agents sont encore faillibles de plein de manières, en gros, ils sont hyper comment on dit raged. C'estàd que quand ils sont sur certains endroits, ils vont être hyper forts, meilleurs que toi et meilleur que la plupart des humains. Et tu te tu vas juste à côté et tu tombes dans une énorme vallée où ils sont bêtes comme des cons, quoi. Et c'est hyper bizarre parce que c'est c'est ça te paraît être un peu la même tâche et elle est juste un peu adjacente et tu tombes dans une vallée de capabilité alors que juste à côté tu es dans sur une montagne de capabilité. Et donc cette ragness fait que bah avoir un système beaucoup plus euh spécifique à la tâche va permettre de compenser un peu ça. Tout comme bah euh tu vois, on disait euh on disait en 2018 le le le la phrase qui faisait rire tout le monde, c'est c'était la fin de de la phase des modèles d'images. On disait qu'à chaque chercheur en image processing que tu enlevais d'une équipe, tu tu avais les les résultats qui s'amélioraient parce qu'en fait tu enlevais la spécificité dans l'algorithme que tu utilisais pour faire de la reconnaissance d'image. Tu laissais s'exprimer le neural net et je pense qu'on va rentrer dans une phase un peu pareil. L'idée, moi mon pari c'est que en fait un système comme ça vraiment pur d'une certaine manière euh va permettre aux agents au fur à mesure où il s'améliore de s'exprimer beaucoup mieux que dans le système spécifique. Aujourd'hui, c'est pas encore vrai. Tu vois sur Arcade Gi, si tu fais un truc spécifique, tu as des meilleurs tu as des meilleurs tuas des meilleurs résultats. Euh il y a plein de manières qui montrent qui sont faillibles. Par exemple, la courbe de la courbe de on a fait un peu de on a fait un peu de recherche euh la courbe de capabilité en fonction du nombre d'agents est hyper surprenante. C'estd que tu tu perds deux agents, ça marche bien. Tu montes à quatre agents, ça marche mieux. Tu passes à h agents, ça se réécroule quoi. Et tu fais ça par budget. Donc tu fais des ça fait des chapeaux alors que tu tu voudrais espérer, tu pourrais comprendre un chapeau à budget constraint parce que comme il a tu mets plus d'agent, il y a plus de collaboration, plus de collaboration mais à budget constant, tu devrais avoir moins de résultats d'une certaine manière. Mais tu aimerais bien que ton chapeau se transforme en petit à petit en un truc qui monte. En fait, pour l'instant, pas du tout. Et ça ça montre juste que tu tombes dans la faillabilité de ces agentsl parce qu'il y a aucune raison systémique que ça soit pas le cas quoi. Peut-être qu'avec GPT 5. Five or cloud, tu vois, la courbe va être complètement différente. C'est ça qui est intéressant, c'est de aller directement vers le système pur. Ça te permet de de d'esser de surpondre mets un nouvel agent, un nouveau modèle dedans et tu auras directement le l'évaluation sans tout refaire. OK. Euh alors je suis ici. Désolé, il y a une question. Alors on va parler math parce que ça m'intéresse particulièrement ce que vous avez dit. Alors, il s'est passé un truc cette nuit, c'est que GPT 5.4 Pro à one shot un problème en théorie analytique des nombres juste sur le site euh chatg.com. Euh ça fait beaucoup de bruit parce que il y avait un prof de Stanford qui qui bossait dessus depuis 6 ans et demi et un autre qui était médaille feit. Et euh le fait que juste sur le site Open AI, on puisse avec une heure de reoning résoudre un problème comme ça. Euh d'ailleurs problème qui a ouvert une énorme perspective selon terrain de CTAo euh m'a fait m'a donné envie de d'aller peut-être alors pas Céline euh acheter l'abonnement pro pour GPT5. Il se passe un truc, c'est que actuellement quand je compte Gini Gemini 3.1, il fait une erreur par compte. Donc il m'enlève des signes, il m'enlève plein de trucs. Donc ça fait depuis quelques semaines que j'essaie de résoudre un problème assez complexe et j'arrive pas trop. Donc là, j'ai vu votre démonstration avec cette histoire de publication. C'est super intéressant parce que du coup, ça permet de review chaque résultat et cetera. Sauf que il y a un truc, c'est que ça coûte cher. Euh donc tout à l'heure, je suis allé sur le site de chat GPT et donc forcément si je suis sur le site chatg.com, là j'ai token illimité, je peux faire ce que je veux. Par contre, avec la PI, ça coûte vraiment très très cher. Sauf qu'il y a un truc qui s'est passé aussi il y a de semaines, c'est qu'il y a Game A 4 qui est sorti et Game A 4 a des capacités qui sont quand même assez surprenantes par rapport à la taille. Et donc moi ce que j'aimerais avoir, en tout cas mon rêve, c'est d'avoir donc moi j'ai un problème à résoudre assez complexe en Fistat d'ailleurs qui est très lié qui a un problème de planning théorique et j'ai la big picture high level mais j'ai un milliard de calcul à faire et j'aimerais que en quelques semaines ce soit ou quelques jours ce soit plié plutôt que quelques mois. Et donc quand j'ai vu votre démonstration, je me suis dit "Ah ben super, est-ce que si je mets game à 4 et que je fais tourner ça sur mon PC gamer, demain matin mon problème est résolu avec tous ces agents entre eux? Euh et ça m'aura coûté zéro." Donc voilà, ma question c'est ça. Tuas encore étéura coûté ton PC et ton électricité mais pas zéro mais euh bah alors les les modèles open source sont trail trail assez bien en ce moment. C'est avoir de c'est intéressant de se poser la question de quelle actuelle versus plus tard. Aujourd'hui, tu prends les modèles open source, tu peux on peut dire en se regardant en face qui trail de enfin qui sont derrière de 3 à 6 mois. Donc c'est vraiment pas mal quoi. Euh nous on a fait pas mal d'expérience avec GLM 5.1 avec euh Kimiked Sying qui est pas les deux sont assez bons. Il y a quand même toujours un delta substantiel en tout cas sur pas mal de problèmes, mais ça vaut le coup ça vaut le coup évidemment d'essayer. Je pense que tu as des vraies capabilités avec des modèles open source en effet. Donc je pense que oui carrément faut et en fait ces modèles open source tu les prends par API, ils coûtent vraiment pas grandchose. Ce qui est intéressant aussi c'estd que tu fais tourner quand je fais tourner un truc comme ça là je sais pas combien dépensé on a dû dépenser 50 balles euh sur une heure ça va coûter 1000 dollars. Tu fais tourner ça sur Kimika de Sying Kimika 5 Sinking ça te coûte 50 dollars. Donc c'est encore un peu d'argent surtout pour un chercheur en physique statistique j'imagine. Mais mais ça coûte quasiment plus cher. C'est c'est le prix d'un bon resto. Donc ça donc ça c'est c'est clair que on est on est on est sur le point de de d'avoir des vrais unlock je pense hein. C'est c'est intéressant. C'est le le prof c'est qui? Parce qu'il y a j'ai j'ai une rumeur comme quoi Wong W Wong Wanghang Wong Wanghang qui est Medalfields ou qui est bientôt Medalfields. James Jer. OK. Ouais. et Wang apparemment qui est hyper connu qui a il me semble je raconte pas de conneries apparenté à l'HS ou je sais pas quoi. J'ai entendu dire des des des réseaux de l'IES que se disait que se demandait vraiment ce que était son rôle en tant que mathématicien depuis qu'il avait alors c'est je dis comme ça ce que j'ai entendu c'est du sicken hand faut pas faut pas faire confiance depuis qu'il a essayé un modèle privé qu'opena lui avait donné il y a quelques temps. Donc ça pose des vraies questions he parce que parce que parce que tu Ouais enfin tu il y a qu'à voir les le métier de développeur il a été complètement transformé en quelques mois quoi. Complètement transformé on était enfin il y a fin novembre et on parle de toi après même ces expression fin novembre on tapa encore du code. Nous on est 30 développeurs chez Dust aujourd'hui. On est juste entré entré entrer entré entré et ça ça va arriver au ça va arriver au les maths sont clairement un target depuis toujours. Tu vois moi chez Open 2019 à 2002 je bossais sur les maths quoi à fond et c'était hyper aligné avec la mission d'open c'est normal donc c'est clair que ça va il va se passer des trucs que attends excuse-moi pardon excuse-moi peut-être il y a deux autres questions qui a pris on ir aujourd'hui l'open source est juste derrière donc il y a plein de résultats super à avoir. C'est comme si tu te téléportais 3 mois en arrière et tu as les mêmes résultats. Bonjour. Bonjour. Merci beaucoup pour la présentation. Ma question c'est comment est-ce que vous adressez le problème de la diversification de votre herness et ça comment est-ce que vous incitez les agents à explorer beaucoup de pistes différentes et pas à stagner dans un maximum local? Ouais, c'est vrai qu'ils ont tendance à ils ont tendance à un peu converger. Euh bah une manière simple, c'est tu pourrais euh dire euh si tu es euh si tu es un labo et que tu as plein de ressources, tu pourrais dire "Bah je j'explose le nombre d'agents" parce que en fait si tu as euh tu as tu as la la dissémination de l'information dans le réseau, elle passe par le système de review. Donc si tu as euh si tu as si tu demandes trois reviews par euh par publication et que tu as euh 500 agents, l'information qui a été produite à cet endroit-là pour se disséminer à l'autre bout du réseau, elle va prendre vachement de temps. Donc en expant le nombre d'agent, ça devrait répondre à ce problème là. Le problème c'est que aussi comme je l'ai dit, plus tu augmentees le nombre d'agents plus moins bons sont les résultats en pratique. Mais c'est en fait c'est comme tout tu sais pas ce que tu vas avoir quand tu scales un peu au niveau suivant. Alors par exemple moi j'ai pas les j'ai pas les fonds sur moi en perso pour aller faire un run à 500000 balles. Ça me ferait plaisir, ça serait marrant. Mais si ça se trouve il se passe des choses très différentes quand tu quand tu mets 500 agents. Ouais merci Stan. Et tout à l'heure, tu as dit que la recherche en maths c'était très aligné avec l'é missission de Pen où tu étais il y a quelques années. Et du coup, est-ce que Search c'est très aligné avec l'é missission de Dust? Et en gros, est-ce que tu vois un lien business à à moyen terme avec Dust ou pas du tout? Pas du tout? Non, pas du tout. C'est juste un projet sur le sur the side pour le pour le fun pour qui qui grattait d'une certaine manière. Alors, je préféire une réponse complètement opposée mais en vérité pas du tout. En aujourd'hui le Dust donc tu vois on parle, je sais pas si je vais dire ça mais c'est pas grave. Euh on nous on travaille beaucoup avec des textaleup, avec des euh des de ce type-là, des boîtes comme nous un peu d'une certaine manière. Et c'est vrai que le travail de la plupart des gens qui travaillent dans ces boîtes-là, c'est du travail qui est assez euh même le travail de dev comme j'ai dit aujourd'hui, c'est un travail tu regardes machine tournée et tu y parles de temps en temps. Mais la plupart des choses qu'on fait au jour au jour, c'est pas des choses où il faut qu'on aille marcher dans la rue réfléchir pendant une heure pour avoir le le moment de heure et cas. Donc dans notre dans notre population de clients aujourd'hui, il y a une il y a pas du tout de connexion avec de la RD assez forte et profonde pour que c'est une valeur business aujourd'hui. Donc aujourd'hui, il y a pas de connexion. Tu pourrais imaginer que demain si dans nos utilisateurs, il y a des gens qui ont plus ce besoin là pour y avoir une connexion. Mais aujourd'hui, c'est complètement c'est pareil. OK, merci. Et ben je vous propose de remercier encore une fois Stan. Merci beaucoup. Ah.