ENFR
8news

Tech • IA • Crypto

TodayVideosVideo recapsAll topicsTop articlesArchives

How Adobe Trapped Us All with the PDF

AIUnderscore_May 7, 202632:45
0:00 / 0:00

TL;DR

The PDF format, born from printing technology and popularized by Adobe, became a global standard while sustaining a lucrative ecosystem through tools, standards control, and enterprise needs.

KEY POINTS

Origins in Xerox and PostScript

The foundations of PDF trace back to Xerox PARC, a major innovation hub that also produced the mouse and graphical interfaces. In the 1980s, John Warnock and Charles Geschke developed PostScript, a language designed to describe precisely how a page should be printed, independent of hardware. This innovation allowed consistent rendering of text and graphics across different printers, solving a major limitation of early computing.

Creation of Adobe and a New Standard

Warnock and Geschke founded Adobe, commercializing PostScript by licensing it to printer manufacturers. Their approach embedded software directly into printers to interpret page descriptions. This positioned Adobe at the center of digital publishing, laying the groundwork for a universal document format.

From PostScript to PDF

In the early 1990s, Adobe launched the PDF (Portable Document Format) under the Camelot project. Unlike PostScript, PDF was optimized for storage and sharing rather than direct printing. It preserved exact visual layout across devices, ensuring that documents looked identical regardless of screen, software, or printer.

A Solution to Fragmentation

PDF solved two major problems: image files were too heavy and not searchable, while editable formats like Word documents often broke across systems. PDF instead stored the final rendered appearance, prioritizing visual fidelity over editability, which made it ideal for contracts, reports, and official records.

Slow Adoption and Strategic Shift

Initial adoption was limited because Adobe charged for its reader software. This changed in 1994 when Acrobat Reader became free, enabling widespread access. Adobe monetized creation tools instead, ensuring that businesses producing PDFs would pay while consumers could read them freely.

Open Yet Controlled Ecosystem

Although the PDF specification was publicly available, Adobe maintained a strong advantage by releasing updates alongside its own tools. Competitors lagged behind, and ambiguities in the specification often defaulted to Adobe’s interpretation, reinforcing its dominance.

Standardization and Paywalled Specifications

Control later shifted partly to the ISO, making PDF an official standard. However, accessing the full specification often required payment, creating barriers for independent developers and open-source contributors despite the format being labeled “open.”

Expansion of Capabilities

Modern PDFs extend far beyond static documents. They can include interactive forms, JavaScript, audio, video, and even 3D models. Specialized variants support accessibility, archival standards, and professional printing, increasing complexity and deepening reliance on advanced tools.

A Complex Technical Format

The PDF specification exceeds 1,000 pages, making implementation difficult. Rendering requires interpreting layered instructions, vector graphics, and transformations. This complexity explains why high-quality PDF engines take years to develop.

Ongoing Revenue Streams

While reading PDFs is now free in most browsers, Adobe profits from creation, editing, validation, and enterprise workflows. Businesses pay for tools that ensure compliance, accessibility, and long-term archiving. Advanced automation software for generating PDFs can cost thousands per license.

Enterprise Dependence

Industries such as education, healthcare, and administration rely heavily on PDFs for official documents like diplomas, invoices, and reports. These often require strict standards, including metadata and accessibility features, further reinforcing demand for specialized software.

Open-Source Alternatives and Innovation

Developers have built alternatives such as WeasyPrint, an open-source engine converting HTML and CSS into PDFs. Such tools are widely used, with millions of monthly downloads and adoption by major companies, demonstrating both the demand for flexibility and the difficulty of replacing Adobe’s ecosystem.

CONCLUSION

PDF’s success lies in its ability to guarantee consistent document rendering across systems, but its complexity and ecosystem have enabled Adobe to retain significant commercial influence over a format that is nominally open.

Full transcript

Combien de fois par jour est-ce que vous ouvrez un PDF? Rapport, facture, contrat. Tout le monde a adopté ce format parce que il est public et gratuit. Enfin en théorie, car Adobe a pourtant réussi à s'en approprier le quasi monopole pour en faire une véritable machine à cash. Et s'il y a bien quelqu'un en mesure d'expliquer ce tour de pass-pass, c'est Guillaume qui a construit son propre générateur de PDF open source. En creusant dans les entrailles du format, il a découvert les rouages d'une mécanique aussi géniale que sournoise qui remonte à l'origine même du format. Mais juste avant, on va parler une petite minute de notre partenaire parce que ça tombe vraiment bien avec le sujet du jour. Mammou AI qui sponsorise cette vidéo est une plateforme qui vous donne accès au meilleur modèle DIIA du marché. Ça va du dernier modèle de Claude à Nano Banana pour les images et même récemment la génération de vidéos. et le tout dans un seul abonnement à 10 €. Et justement, il travaille aussi très bien avec les PDF en lecture comme en génération. C'estàdire que vous pouvez lui dropper vos meilleurs PDF dans le chat et lui en parler directement. Et inversément, il peut vous générer des documents juridiques par exemple. Et ça fonctionne aussi avec les autres formats documents. Le tout avec des serveurs en Europe et zéro conservation des données. Le lien est en description et on reprend. Est-ce que justement pour planter un petit peu le le décor, tu peux nous raconter l'origine de euh de PDF? Parce que c'est ça n'est pas ça n'est pas tel qu'elle Adobe, de ce que j'ai compris. Non non, c'est une histoire qui est assez longue. Alors, on peut faire remonter ça hyper loin, mais le début c'est vraiment euh Xerox, donc qui est une entreprise américaine euh qui fait des photocopieurs. C'est une boîte qui vient de l'Est des États-Unis. C'est pas à la base, c'est pas forcément une boîte de la techtech. Euh mais ils ont quand même beaucoup d'innovation. Il y a un brevet qui fait qu'ils vont être assez riches. Ils vont avoir la main mise sur la photocopie. D'ailleurs, il y a plein de pays dans le monde où Xerox est synonyme de photocopie. OK. Et donc c'est une boîte qui a vraiment vécu et grandi et qui s'est développé Ouais. sur la photocopie à la et qui va être précurseur de plein de trucs. C'est un peu le le berceau de la technologie avant peut-être la Silicone Vallée justement. Ils ont un truc qui s'appelle donc le Xerox Park. Exactement. Est- que tu peux nous présenter un petit peu qu'est-ce qui est né là-bas qui est un peu légendaire? En fait, il y a eu la souris, la programmation orientée objet. Il y a small talk, donc un des langages qui est la base de la programmation objet qui a été inventée là-bas. Tout ce qui va être interface graphique, les idées. Alors, la programmation orientée objet a été inventée chez Xerox. Elle a été inventée dans le centre RD. OK. Et en fait, même les interfaces graphiques, ça c'est fou. Ouais. Ben en fait, on verra, on va voir que entre les interfaces graphiques et les PDF, il y a en fait un chemin commun. C'est aussi vieux que ça. C'est aussi vieux que ça. Ouais. Bah dans les années 60, il y avait la mère de toutes les démos qui est une vidéo incroyable, si vous l'avez pas vu, elle est formidable, qui présente des gens qui font une visio en live. Il y a des choses qui ressemblent à des liens hypertext alors qu'on est dans les années 60. Si vous avez jamais vu ça, c'est absolument incroyable. Il y a eu une tonne d'inventions qui ont été qui sont nées dans ce berceau là sans que Xer se rende compte de du fourmillement d'idées qu'il y a eu à ce moment-là quoi. Ils vont passer à côté de tout ça. Parmi tous ces gens, il y en a deux qui vont nous intéresser aujourd'hui qui s'appelle John Warnock et Charles Charles Gesque. Je sais pas si je le dis bien. Gescheux Gesque. Qui eux justement ont une intuition à ce moment-là. Ouais. Leur idée c'est de se dire on est dans les années 80 et il y a quelque chose qui se développe. On a tout doucement l'arrivée de l'informatique dans les entreprise et de l'ordinateur personnel qui va arriver. Ils se disent que dans les entreprises, il y a vraiment besoin d'avoir un système pour faire de l'impression, c'est-à-dire qu'on puisse arriver à prendre des documents et à imprimer quelque chose. Donc il y a déjà des imprimantes qui existent mais c'est très compliqué. Il y a plein de technologies très différentes. Peut-être que vous avez déjà vu ces genre d'imprimantes qui écrivent que du texte sur des grands des grandes lignes de feuilles de papier qui sont avec des pointillers entre et des ronds sur les côtés. Ça c'est des imprimantes qui impriment que du texte. C'est en gros des machines à écrire automatisée, on peut dire. Il y a des impressions qui sont purement matricielles. C'est-à-dire on fait des grands tableaux avec des pixels à l'intérieur et on choisit de dire à l'imprimante bah à tel endroit tu mets tel pixel. Mais ça c'est très lourd. Et puis c'est dépendant de la résolution. Ça veut dire que si on veut faire la même image avec plus ou moins de de granularité sur le le document, ben je vais avoir besoin d'avoir deux trois quatre formats d'images différents parce que on n pas la même résolution alors que fondamentalement ça reste les mêmes traits, les mêmes lignes, le même l'idée qu'un fichier peut être imprimé par des par des imprimantes très différents et est complètement hors de porté en fait. Alors c'est pas hors de portée parce que pour du texte par exemple, il y a des imprimantes qui suivent la même chose mais trouver un format qui peut imprimer à la fois du texte, des images, du dessin vectoriel, donc des lignes courbes ou des lignes droites. Hm. Il faut trouver un langage pour leur parler et un langage pour leur expliquer bah voilà ce que je veux imprimer sur la feuille de papier. Et leur idée c'est de se dire il faudrait qu'il y ait un format qui a un langage qui permet de pouvoir dire aux imprimantes je veux imprimer tel texte à tel endroit, je veux imprimer telle ligne à tel endroit, je veux mettre telle image à tel endroit. Et c'est donc ce que ce qu'ils vont inventer. Ils vont partir avec cette idée-là. Donc le projet s'appelle Postcript euh qui est encore utilisé aujourd'hui et c'est un langage de description de ce qu'on veut imprimer sur une feuille de papier. ils partent et ils vont créer une entreprise qui s'appelle Adobe et euh qui va devenir ben le massodonde qu'on connaît aujourd'hui parce que comment euh l'entreprise, l'origine de l'entreprise Adobe, comment elle gagne de l'argent en fait? À qui ils vont vendre ça? Alors l'idée c'est pour eux de d'arriver à trouver un langage qui fonctionne et une fois que le langage fonctionne, ils peuvent aller voir des fabricants d'imprimante en leur disant "On a un super langage qui va faire que automatiquement vos imprimantes, on pourra leur envoyer ces données là et elles pourront imprimer les différentes informations qu'on leur enverra." Et donc il faut bien intégrer dans l'imprimante un logiciel qui va transformer ses commandes en au final des points qu'on va imprimer sur un papier. Et donc ce ce langage là et ce logiciel qui va lire ce langage c'est post et c'est ce qui va être vendu au fabricant d'imprimante. Tu vas nous expliquer justement comment tout ça est lié. Mais de ce que je comprends Steve Jobs va typiquement être un un des premier à adopter dans son système qui qui n'était même pas encore MacOS en fait. C'est quoi le le lien justement entre cette technologie et les systèmes d'exploitation? Alors, on se rend pas compte parce que c'était il y a longtemps et que pour l'instant enfin pour nous maintenant tout est tout paraît assez évident quand on utilise un ordinateur, mais en fait c'est euh les deux phases d'une même pièce, le fait d'imprimer sur une feuille de papier ou d'afficher sur un écran, finalement c'est la même chose. On a besoin de mettre à tel endroit du texte, à tel endroit telle couleur, à tel endroit tel trait. Et Steve Jobs va avoir une démonstration donc des gens d'Adobe de Postcript et va dire "Mais c'est incroyable." Bon, pour l'impression c'est bien, mais pour l'interface graphique en fait, c'est génial. Il faudrait qu'on construise des systèmes d'exploitation où on n pas ce système purement textuel mais vraiment une interface graphique. Et pour ça, on a besoin d'un langage qui permet de dire comment à l'écran on affiche et ce langage ça pourrait être quelque chose qui ressemble beaucoup à Postcript. h et donc ils vont discuter ensemble, voir un petit peu, essayer de monter des partenariats puis ça va pas très bien se passer et Steve Jobs va repartir avec l'idée et va l'utiliser après. Bon plus tard pour MacOS mais même avant quand il a fondé Next, il y avait des idées de construire une interface graphique autour de ce langage et c'est c'est fascinant et je pense que beaucoup de gens vont le découvrir que le le PDF et le système d'exploitation en terme d'interface graphique ont le même ancêtre commun. Absolument. C'est absolument dingue. Mais PDF n'est pas post. Non. Est-ce que tu peux nous nous expliquer justement euh qu'est-ce qui qu'est-ce qui reste encore à construire et en fait où d'où sort PDF, quel problème euh il répond? Postcript, c'est un langage qui est très intéressant, qui marche très bien, mais bon, c'est un langage qui est vraiment fait pour l'impression. Euh c'est un langage qui est assez complexe, qui contient beaucoup de choses assez assez difficiles à mettre en œuvre. Et puis c'est un format qui est aussi assez lourd, qui est fait pour envoyer de la donnée, mais bon, qui est pas fait pour être échangé. Et quand on arrive dans les années 90, il y a un peu cette idée d'avoir l'entreprise sans papier. Donc ça c'est le grand rêve de on va tout informatiser, on va on va tout mettre dans des ordinateurs et il y aura plus de papras du tout. Un rêve qui s'est pas trop réalisé mais en tout cas on avait vraiment quand même il y avait quand même une idée derrière. PDF va arriver parce qu'il y a un besoin de créer un format qui fasse peu pro la même chose que Postcript, c'est-à-dire définir comment on affiche sur une page euh les différents éléments, mais qui soient organisé pour être euh transféré, utilisé, stocké. Postcript, c'est bien pour envoyer aux imprimantes. On l'a détourné pour en faire des fichiers PScript que c'est encore ça existe encore aujourd'hui, mais c'est pas un format qui est hyper adapté. Et le rêve, c'est de construire un format qui soit lisible sur n'importe quelle machine, quel que soit le matériel, affiché sur du papier ou sur un écran. et euh quelle que soit la résolution de ce sur quoi on veut on veut l'afficher, que ça soit un bel écran avec une belle résolution ou un écran tout pourri noir et blanc, que ça soit sur du papier avec pareil des très bonnes résolutions ou pas, on veut un seul format pour euh arriver à représenter tout ça. Il y a un projet qui s'appelle le projet Camelot qui est lancé par Adobe et qui a pour but de construire ce format là. C'est un format qui est énormément basé sur Postcript parce que ça reste sensiblement la même chose mais il y a quand même des choses qui sont intéressantes. Il y a une partie compression, on arrive à faire des commandes qui sont qui prennent moins de place. Donc ça permet d'avoir des fichiers qui sont moins lourds, 10 ans d'erreurs qu'on a accumulé et d'expériences qu'on a acquises qui ont permis d'arriver à construire un format qui est beaucoup plus ramassé, beaucoup plus simple et beaucoup plus efficace pour être transféré. Et la promesse de de PDF, c'est quoi exactement par rapport à d'autres formats qui peuvent exister? Parce qu'aujourd'hui on peut c'est fascinant de voir que on s'envoie toujours autant de PDF. Peut-être on a jamais on s'est jamais envoyé autant de PDF. Bien sûr. Quel est le problème si on rentre un peu dans le détail peut-être avec des exemples que d'autres formats ont que PDF n'a pas? Bah bien sûr. Bah on peut prendre deux exemples extrêmes. Donc c'est c'est un peu extrême mais ça permet de bien comprendre. A priori on pourrait s'envoyer des images plutôt que de s'envoyer des PDF. Mais le problème des images c'est que c'est souvent des images matricielles. Jou en gros c'est un grand tableau où tu définis chaque petit pixel. Donc si on ouvre l'image en binaire, on verra pas le texte écrit. C'est il est c'est un dessin quoi. Exactement. Et c'est des formats qui sont pas adaptés parce que pour faire de la recherche de texte par exemple, c'est vraiment pas pratique. On peut pas trouver ou alors faudrait faire la reconnaissance de caractère. Bref, et puis c'est lourd, ça prend énormément de place. Alors que si on veut écrire juste une page blanche avec un mot au milieu, on peut juste dire bah je veux une page blanche avec un mot au milieu. C'est beaucoup plus simple que de dire bah ce pixel il est blanc, ce pixel il est blanc, ce pixel il est blanc, ce pixel il est aussi blanc et d'arriver à des des choses qui sont énormes. Donc ça c'est l'exemple typique de pourquoi on peut pas utiliser des images pour ça. L'autre exemple c'est ben tout le monde a utilisé des doccks de la suite de Microsoft. Euh si vous avez déjà essayé de l'ouvrir sur trois ordinateurs différents avec trois versions de trois logiciels différents, je te vois sourire, je tout le monde a eu cette expérience-là de "J'ouvre mon doc ou j'ouvre mon PowerPoint et puis tout est cassé, il y a rien qui est pareil. La police de caractère, elle est pas bonne." Euh tu tu reédites et puis après tu reerenvoies et c'est recassé. Exactement. Voilà. Donc ça c'est l'exemple inverse d'un document qui est modifiable, dansquel on peut rechercher, dans lequel on a l'information mais qui est qui a pas une sortie qui est stable. Hm. Pourquoi? Euh PDF est fait pour stocker le rendu. La base c'est comme PostCrypt, c'est on veut un rendu qui soit fidèle et c'est ça qu'on veut stocker quoi qu'il arrive. Euh doc, c'est un format pour stocker de l'information et le rendu finalement c'est une conséquence secondaire du format. C'estàd que peu importe que ça s'affiche pas exactement de la même manière de partout, l'important c'est qu'on puisse quand même retrouver le contenu à l'intérieur. Et donc il y a pas la même stratégie dans la façon de stocker l'information. On peut faire tout ce qu'on veut dans des formats typiquement comme des doc. C'est extrêmement compliqué de retrouver une fidélité du de la sortie. Donc ce format quand il est créé a vraiment comme mission de d'avoir le le rendu le plus déterministe en fait possible et que peu importe ta machine et ton lecteur, tu tu obtiennes le document et qu'il soit imprimé. En fait, c'est ça on voit l'origine de l'impression. Si tu entre deux imprimantes différentes, ton truc, ton texte, il a bougé, c'est l'enfer. Exactement. Est-ce que c'est directement un succès? C'est est-ce que tout le monde voit l'intérêt tout de suite? Non. Alors, il y a plusieurs raisons à ça aussi. Il y a une raison déjà, c'est que pour arriver à mettre en place un format, il faut que les gens l'utilisent. Pour l'utiliser, il faut les logiciels qui fonctionnent. Et au début, tous les logiciels qui sont fourni par Adob sont des logiciels payants. En particulier, le lecteur de PDF, c'est un logiciel qui est payant. Donc évidemment, comme c'est payant, ça coûte 50 dollars à la base. Juste le lecteur parce qu' il y a toute la suite autour qui coûte beaucoup plus cher pour créer des PDF parce que c'était à quelle époque ça? Parce que j'ai pas le souvenir. C'est début des années 90. Ouais. Et donc la version 1 du PDF, c'est vraiment 93. Alors à ce moment-là, il y a une spécification qui existe qui définit comment marche le le langage. Donc une spécification, c'est l'endroit où il ils décrivent les les mots que tu peux utiliser dans leur langue globalement. Exactement. C'est ça. Il définissent le langage PDF. Comment on fait pour écrire ou pour lire un PDF? Donc ce format là, il a été rendu accessible gratuitement. C'est Adobe qui le fait. Donc ça reste un format fermé. C'est eux qui vont pendant longtemps continuer à le développer tout seul comme des grands, mais ça reste un format accessible gratuitement. Et pourquoi ils font ça? Parce que leur but à terme, c'est d'arriver et de dire bah le format de référence que tout le monde peut lire, tout le monde peut écrire partout et que tout le monde peut comprendre comment ça fonctionne, c'est le nôtre. C'est l'inverse de ce que peut faire Microsoft avec ses formats par exemple ou il y avoir généralement une envie de fermer les formats pour qu'ils soient les seuls et que les gens soient obligés d'utiliser les logiciels. Là, c'est la stratégie un petit peu inverse. Ils veulent que tout le monde prenne ce format-là et ils vont rendre dès la version la première version qui va sortir après de PDF en 94, la version 11, elle va sortir avec Acrobat Reader qui va être gratuit. Et là, les gens vont pouvoir gratuitement récupérer les lecteurs. Et donc, les gens qui ont de l'argent, qui peuvent construire les PDF vont pouvoir dire à leurs clients, bah vous pouvez télécharger le logiciel et l'installer, c'est gratuit pour pouvoir le lire. Ah oui, donc celui qui paye, c'est celui qui construit le PDF. C'est celui qui paye, c'est celui qui construit le PDF. Ouais. Ce qui ce qui est important de comprendre aussi, c'est que dans la stratégie de rendre ça ouvert à tout le monde, il y a quand même une grande stratégie de savoir combien de gens vont utiliser le logiciel, que les gens ai la démarche de se dire "J'ai un PDF, je sais que c'est sur le site d'AP que je vais télécharger le logiciel qui va permettre de lire le PDF." On se rend compte que au-delà du côté financier de la chose, il y a un côté d'image et construit une image ou il se construit une image et après dans les années 2000 où il y a pas de lecteur par défaut sur pas mal de d'OS de système d'exploitation, ben tout le monde va télécharger. Une des premières choses qu'on fait c'est télécharger Acrobat Reader qui va devenir après Adobe Reader pour lire des PDF parce que tout le monde s'échange des PDF et donc tout le monde connaît Adobe à ce moment-là. Donc c'est eux qui contrôlent complètement le format. Ouais. Est-ce que par exemple d'autres entreprises peuvent créer des PDF? Tu disais que c'est comme ça qu'il gagnent de l'argent. Ouais. Est-ce que sur la partie création de PDF euh il y a de la concurrence ou pas? Alors, comme le le la spécification est accessible à tout le monde, d'autres logiciels vont être créés assez rapidement pour lire et pour écrire des PDF. La stratégie d'AOP, c'est de se dire de toute façon, c'est nous qui faisons le format. Dès qu'on sort une nouvelle version du format, on est les seuls à la connaître puisque quand on la met sur le public, on la rend public, bah on a nous eu tout le temps pour pouvoir travailler dessus. et ils sortent les logiciels en même temps que les formats. Donc à un instant donné, quand il y a une nouvelle version qui sort, il y a que eux qui sont maître du logiciel tout en disant le format est ouvert, tout le monde peut faire ce qu'il veut. Ils ont une avance technologie et technologique et une maîtrise telle que de toute façon les autres implémentations donc les autres logiciels qui sont capables de lire ou d'écrire du PDF sont forcément en retard et forcément moins bien. Moins bien pourquoi? Parce que même s'il y a un doute, même si dans la spécification il y a quelque chose qui est un peu flou, s'il y a deux visions de la spécification, qui on va croire? Est-ce qu'on va croire Adobe ou est-ce qu'on va croire les autres gens qui lisent la spécification? Adobe peut dire "C'est moi qui l'ai écrite, c'est moi qui sait". Ah oui donc si ça se trouve en fait Adobe comme ils construisent la création de PDF, les logiciels les plus utilisés et le lecteur que tout le monde utilise, eux-mêmes peuvent interpréter des choses et si le concurrent crée un PDF qui est mal lu, entre guillemets, c'est c'est tant pis pour sa pas. C'est un peu le jeu. Ouais, c'est un peu le jeu. Un truc qui est lié à ça que moi je trouve assez complexe à à comprendre en fait, c'est qu'est-ce qui est si dur. OK, on sait que c'est par exemple du HTML, on sait que c'est difficile de rendre du HTML, c'est c'est pas mal de travail et cetera, mais il y a il y en a plusieurs qui existent et qui sont très très bons. Donc Firefox, il peut t'afficher une page HTML sans problème. Ouais. Qu'est-ce qu'il y a de si particulier avec PDF? Alors déjà, c'est une grosse PEC, euh mine de rien. Aujourd'hui, elle fait plus d'un millier de pages. Donc ça veut dire que pour implémenter PDF, il faut quand même avoir sacrément du temps pour lire et comprendre la la spécification. Ça rend la chose assez complexe techniquement. Il y a énormément de choses à savoir, à comprendre. C'est un document qui est pas accessible à tout le monde. Il faut vraiment s'y pencher. Donc ça prend énormément de temps à acquérir la compétence pour comprendre comment faire pour en faire. Après, il y a tout un système d'outillage pour pouvoir vérifier si les PDF qu'on peut créer ou qu'on va lire, ils sont corrects. Se poser des tonnes de questions sur mais est-ce que j'ai bien compris cette partie-là ou cette partie- làà? Et c'est des années, des dizaines d'années pour arriver à construire des logiciels qui sont capables de lire et d'écrire. Il paraît que l'aspect elle-même, elle est en PDF. Et l'aspect, elle est en PDF. Moi, j'ai beaucoup travaillé avec d'autres spécifications et aujourd'hui la plupart des spécifications elles sont en ligne. Donc, c'est facile, on peut s'envoyer des liens pour parler des différents chapitres et tout. Là, la SPC, elle est en PDF donc c'est moyennement pratique. C'est une spec on peut plus donner un lien à quelqu'un et dire va voir la SPC. Parce que la SPEC, elle a été passée de Adobe qui avait la main dessus à l'ISO qui va du coup maintenant est en charge de faire la spécification. Et là dans le cas un peu, je trouve qui est intéressant à raconter, c'est de décrire un peu la partie un peu business et justement qu'est-ce qui fait que encore aujourd'hui il y a des sources de revenus qui sont liées au PDF et cetera. Un truc qui est pas du tout intuitif en fait. Il y a déjà une partie, c'est que quand Adobe va mettre en place va dire on va laisser la la spécification à l'ISO et il va y avoir un consortium d'entreprise qui vont s'engouffrer dans la brèche en disant moi aussi j'ai envie de participer à la création de ça. l'ISO va mettre à disposition ses spécifications mais va les rendre payantes parce que l'ISO quand on veut télécharger une norme il faut qu'on donne de l'argent et donc la spécification devient ouverte dans le sens où il y a plusieurs acteurs maintenant qui vont participer à la création de la spécification mais pour les gens qui ont besoin d'avoir accès à la spécification ils vont devoir payer. Bah là d'un coup on a un standard qui devient ouvert et payant quand on est une entreprise payer une centaine de de francs suisses on s'en fiche un peu. Mais pour les personnes qui travaillent sur toutes les implémentations libres par exemple qui font ça généralement sur leur temps libre, si on leur dit bah travaille sur ton temps libre sur l'aspect mais en plus si tu as besoin de l'aspect, il va falloir que tu la payes toi-même. Là ça devient un petit peu et pour décrire un peu justement c'est quoi cet univers. Est-ce que tu peux nous parler de cet univers? Ouais. Alors moi j'ai travaillé avec beaucoup W3C à Unicode moins dans la PDR mais il y a tout le même fonctionnement un petit peu partout. OK donc ça s'appelle la PDF association. Alors c'est la PDF association qui est une association qui a pour but de faire la promotion de PDF. et qui est un membre du groupe de travail à l'ISO qui participe à la création de PDF. C'est un système de strat. Mais est-ce qu'on a besoin de faire encore la promotion de PDF? C'est un travail sans fin. Il faut s'assurer quoi qu'il arrive que il y ait des nouvelles idées que ces nouvelles idées elles soient intégrées dans PDF. Au début PDF c'est pour faire des traits du texte mais quand on sait aujourd'hui ce qu'on peut faire avec PDF inclure de l'audio, de la vidéo, de la 3D. Quoi? Dans dans mon esprit, PDF, c'est resté figé depuis des milliers d'années. C'est un truc qui fait des factures. Voilà. Et et c'est et c'est comme ça depuis super longtemps. Mais qu'est-ce qu'il y a de nouveau sur PDF? Il y a plein de choses. Alors, il y a plein de formats différents. Ça aussi en terme d'argent, on peut se poser la question de comment ça marche derrière, mais il y a plein de variantes différentes pour faire par exemple de l'impression. On a besoin d'avoir du CMJN, donc des systèmes pour définir la couleur pour les imprimantes avec des espaces de couleur, des trucs techniques pour le le dessin. Il y a une des PDF qui sont accessibles pour que les gens puissent lire le contenu des PDF quand ils sont par exemple en audio description, des choses comme ça. Exactement. Et de la 3D. Et la la 3D, on peut mettre des modèles 3D dans du PDF. OK. Et donc on peut mettre de l'audio aussi. On peut mettre de l'audio, la vidéo bien sûr et même du JavaScript dans les PDF. Mais c'est une page web là le truc. Alors ça devient très très compliqué en effet et ça explique aussi pour le but c'est d'aller au-udelà de l'impression aussi. C'est ça qui est intéressant. Bah un exemple qu'on comprend assez bien et tout le monde à peu près touché je pense, c'est aussi le côté formulaire. Il y a plein de PDF où on peut rentrer du texte à l'intérieur et après on peut soit l'envoyer, ça va l'envoyer sur le web ou alors on peut l'imprimer avec les choses qu'on a modifié. Des docus du coup les trucs comme ça. La signature c'est aussi toute une série de choses qui sont possibles avec PDF. Donc on se rend compte finalement que c'est tentaculaire de deux trois textes et deux trois dessins, on arrive à quelque chose qui devient vraiment tentaculaire. Et est-ce que comme dans d'autres types de technologie, c'est plutôt des geeks globalement des des tu vois des des libristes qui se réunissent pour débattre de trucs ou pas du tout? Là c'est c'est un autre monde. Pas du tout. C'est c'est pareil dans tous les grands organes de spécification dans l'informatique en tout cas que j'ai vu. Mais ça reste quand même des personnes qui arrivent qui généralement sont des personnes qui ont des posts assez importants, qui ont des carnets d'adresse longs comme le bras, qui ont une vision technique extrêmement poussée avec un ego souvent assez important qui vont se réunir. Et quand on a des gens qui se réunissent de plein de d'énormes boîtes avec une volonté politique de faire avancer les intérêts de l'entreprise, ça se transforme des fois en des salons de discussion qui sont assez animés. Oui. Voilà. On va retrouver ce côté-là où il y a une partie technique évidemment, il faut spécifier, mais derrière il y a toute une partie politique où les gens arrivent et vont pousser les intérêts personnels des gens et des entreprises au sein de ces consortium. Ça coûte cher de participer à à ces discussionslà pour rentrer dans la PDF association qui est une des manières de rentrer dans le le working group de de l'ISO. Quand on est indépendant, qu'il y a pas de truc de travail, que vraiment on fait ça pour son plaisir, ça va être quelques centaines de dollars à l'année. Mais si on veut être une entreprise et avoir la possibilité d'y aller à fond sur la partie politique, là on va très vite monter à quelques milliers, voir quelques dizaines de milliers de dollars par an. Et c'est très intéressant pour des grosses boîtes d'arriver à avoir un pied dans la spécification de PDF. Et qu'est-ce qui fait donc aujourd'hui que PDF peut encore continuer à rapporter beaucoup d'argent? Globalement aujourd'hui qui paye c'est quoi les genres de licen? Moi, je me je me souviens pas d'avoir payé pour ouvrir un PDF dans Chrome globalement. Comment ça marche tout ça? Alors pour la lecture des PDF généralement maintenant il y a plein d'implémentations qui sont libres qui sont gratuitement accessibles. Dans tous les navigateurs, on peut ouvrir un PDF. Donc cette partie- làà elle est quasiment réglée. Adobe à certains lecteurs qui existent toujours mais qui est beaucoup moins important que ce qu'il était il y a 20 ans. Ce qu'il y a d'intéressant pour Adobe actuellement, c'est toute la partie création. Donc ils ont encore acrobate avec toute une suite de logiciel pour faire la création très avancée. Il y a tous les outils qui sont autour de PDF pour par exemple prendre un PDF normal et faire de la reconnaissance de caractère, prendre un PDF normal et faire un PDF pour l'impression, un PDF qui est tagué pour l'accessibilité. Donc qui paye ça typiquement? toutes les entreprises qui génèrent des PDF. L'exemple, nous on travaille aussi avec des clients qui ont besoin des besoins comme ça. Pour des écoles par exemple qui vont sortir des bulletins ou des diplômes, il faut que ces diplômes là soient archivables. C'estàd que il y a des sous-formats de PDF qui sont archivables et qui vont durer dans le temps. Il faut qu'il soit accessible. Ça veut dire qu'il faut qu'une personne qui a pas la possibilité de voir son écran puisse quand même accéder au contenu à l'intérieur. Et donc pour faire ça, il faut rajouter des métadonnées à l'intérieur du PDF. Et pour ça, il faut un logiciel qui va rajouter ses métadonnées. Et donc bah là, une des implémentations les plus connues, c'est toujours celle et encore celle d'Adobe. Donc il y a tout cette partie-là et puis après toute la vérification aussi de la validité parce que pour que ça soit valide d'un point de vue légal, on va passer des validateurs. Il y a plein de validateurs pour s'assurer que les PDF sont corrects mais il y en a celui qui va faire foid encore une fois, on en revient toujours la même chose. Si Adobe dit que c'est valide, c'est que c'est valide. Ça rapporte plein de plein d'argent. Les développeurs aussi peuvent payer des licences. Alors, il y a plein du logiciel qui sont capables de générer du PDF et aujourd'hui il y en a plein. N'importe quel navigateur, on peut faire imprimer dans un PDF et ça va sortir un PDF. N'importe quel traitement de texte va pouvoir faire ça. Mais si on veut faire de l'automatisation de génération de documents, il y a des logiciels qui sont vendus pour faire de la génération automatique. Et là, ça peut aller de plein de logiciels libres qui sont gratuitement accessibles jusqu'à des logiciels très précis qui peuvent coûter plusieurs centaines plusieurs milliers de dollars à la licence sur une machine. Pour ça qu'on le voit pas, c'est ça qui est, c'est que nous à la fin, on a jamais on s'est jamais posé de question mais en fait dans toute la chaîne tous les gens qui qui ont du font du logiciel qui gravitent autour de PDF à un moment risque globalement de de passer à la caisse et ça peut poser questions, poser problèmes pour ceux qui ont justement pas forcément de de moyens de faire ça. Et c'est un peu le début de ton histoire toi avec PDF puisque le on se demande peut-être comment tu en connais autant et on va le découvrir maintenant, c'est que tu t'es rendu compte si mes souvenirs sont bons que dans les pharmacies typiquement et j'imagine qu'ils avaient pas trop les moyens de d'utiliser des outils Adobe enfin qu'en gros il y avait c'était pas si évident quoi de d'exporter du PDF. Ouais. La la jeunesse de ma rencontre avec PDF, c'est en effet, je travaillais pour dans l'informatique pour les pharmacies. Je t'associais avec un pharmacien et il y avait plein plein de PDF à sortir, que ça soit des factures, que ça soit des on faisait des supports de cours, on faisait des rapports pour des notices de médicaments. Euh et tout ce travail là, bah quand on en fait une, de trois, des factures, on peut les faire à la main, mais quand il faut en générer 100000 par mois, d'un coup, ça devient très compliqué et donc il faut l'automatiser. On a testé plein de solutions différentes pour faire de la génération de documents. On a essayé avec la tech qui est un format un petit peu pas forcément chercheur en particulier et de personne d'autre. Nous le problème qu'on a eu c'est quand on a fait ça c'était bien. Puis les gens avec qui je travaillais disaient bah écoute c'est sympa mais c'est quand même assez du noir et blanc. Il y a pas moyen de faire un truc à peu près joli et quand j'ai demandé à la graphiste qui travaille avec nous tu peux pas faire un petit peu de la tech pour faire du style dessus elle m'a regardé dit non mais jamais je touche à ça c'est pas possible. Ça reste quand même assez complexe. On a essayé de faire à l'époque du open office qui est devenu libre office. Après, on a essayé d'automatiser ça mais c'était compliqué. Et donc c'est un problème que je vous avez mais que beaucoup de gens on en plein plein de gens. Exactement. En tant que gros malade que vous êtes, qu'est-ce que vous avez décidé de faire? C'est une c'est une histoire un peu rigolote. Donc on était une toute petite entreprise, on faisait que du logiciel libre et il y a des solutions qui existaient à l'époque et qui permettaient de transformer du HTML et du CSS en PDF. Alors, ça paraît bizarre parce que HTML CSS dans la tête des gens, c'est pour faire des pages web et c'est vrai, mais en CSS euh dès le début, dès la version 2 de CSS, euh fin des années 90, il y a tout ce qu'il faut pour faire de l'impression et même euh il y a tout des systèmes pour faire euh gérer des styles différents selon qu'on affiche sur un écran, qu'on fasse ça sur un projecteur, sur un écran Brail, enfin bref, ils ont pensé à tout. Les navigateurs ont autre chose à faire que d'implémenter tout ça. Ils sont plus intéressés à avoir euh du JavaScript qui va super vite et des choses comme ça. Et puis surtout les les navigateurs, ils sont fait pour rendre ça sur un grand rectangle qui va défiler mais ça reste un grand rectangle. Et donc nous on s'est dit ce serait trop bien s'il y avait un moteur de rendu qui prend du HTML CSS. Tout le monde sait faire du HTML CSS. Si je vais voir ma web designer et que je lui dis "Tu veux faire du HTML CSS Elle me dit "OK, ça c'est bon, c'est dans mes corps." On a regardé ce qui existait aussi dans le navigateur, mais les navigateurs faisaient des coupures de page qui étaient horribles, étaaiit pas fait pour ça. Et donc on s'est dit, on a qu'à faire notre propre moteur de rendu à si on faisait un moteur de rendu zéro, pourquoi pas? De l'aspect PDF, ce serait rigolo. Je travaillais avec un stagiaire qui s'appelle Simon qui je fais coucou d'ailleurs qui était là et je lui dit "Écoute Simon, tu sais ce qu'on va faire? On va faire un moteur de rendu. Est-ce que ça t'intéresse?" Il me dit "Franchement c'est l'idée la plus stupide que j'ai jamais entendu mais franchement ça m'intéresse. Ce serait trop bien." Il je lui dis "Bah écoute ce qu'on fait c'est que ce weekend je rentre chez moi, je te fais une preuve de concept comme ça qui marchote et si j'y arrive à le faire c'est que c'est possible. On y va." Je reviens le lundi et j'avais mon petit prototype qui marchait avec deux trois trucs de HTML et de CSS qui étaient supportés. Et ça sortait un PDF et j'ai fait "Bah tu vois maintenant il y a plus qu'à lire toutes les specs, implémenter ça correctement. Voilà, tu as juste à faire tout le reste et je trouve que justement le mieux c'est de voir en image à quoi ça ressemble concrètement parce que comme ça ça l' un peu abstrait. Ça c'est quoi? C'est un exemple. Donc ça c'est deux rectangles. Il y a un rectangle en pointillé, on a dessiné que le tour et il y a un rectangle noir où on a rempli l'intérieur avec du noir. Donc c'est en gros toute une série de commandes qu'on va pouvoir écrire pour pouvoir lui dire ça. On va lui dire ça ressemble à quoi alors? Bah on va on va voir ça tout de suite. C'est tout petit. Donc ça c'est un mini PDF hein. Il fait donc là c'est toutes les instructions pour pouvoir tracer le rectangle. Exactement. Il y a toutes les instructions du dessin. Elles sont au milieu. On va avoir des coordonnées avec RE qui va dire qu'on va dessiner un rectangle. Donc si je le lis pour les gens qui nous écoutent, ça fait genre 1 0. Ouais. Après une description endge. Ça c'est ça ressemble. Bon, c'est pas comme du XML ou quelque chose comme ça, mais globalement tu as un peu des systèmes de de tag et des coordonnées. Alors, il y a différents objets. C'est pour ça que c'est marqué Obge tout le temps. Tout en bas, il y a une série de chiffres. Ça, c'est la table des objets. Donc, ça permet de savoir dans le PDF où sont les différents objets. Ça, c'est les l'objet qui contient les informations de dessin. Donc là, il y a des coordonnées X Y avec une largeur et une hauteur et on dit que c'est un rectangle. Et donc là le ce qu'on a vu la première ligne c'est un rectangle de 50 par 70 avec des coordonnées. Ah oui, tu le tu le places dans le l'espace probablement. Ça exactement. Après on va définir qu'on veut des pointillers. Donc il y a une opération pour lui dire je veux des pointillers avec un D comme d'h pour lui définir comment marchent les pointillers. Donc toi, tu tu lis la matrice, ça maintenant, ça je peux le dire des sur des opérations simples comme ça. Ça c'est ça reste assez tu vois mentalement ce que ça doit tracer sur la page. Alors ça c'est compliqué parce que il y a plein de choses en PDF qui transforment les objets. Là il y en a une par exemple avec CM, c'est les matrices de transformation et là très vite on peut se retrouver avec des objets qui vont se retrouver à partir un peu à gauche à droite. Et du coup c'est c'est difficile de voir le rendu réel mais on peut facilement trouver alors les erreurs dans le PDF quand on a un bug. Ça on peut jearrive à les voir généralement maintenant. Waouh! Ou alors là, j'arrive, si je lis ça, je peux assez facilement savoir à quoi ça va ressembler derrière. Ce que toi tu as fait, c'est que vous partiz d'un CSS et vous le traduisiez dans ce langage-là. Ce qu'on a fait, c'est exactement ça. Donc c'est un projet qui s'appelle Weizy Print, qui est un projet du coup libre Weiz Print, c'est ça? Wey Print. Ouais. Et c'est une bibliothèque qui permet de transformer donc du HTML et du CSS en PDF. Ça fait la même chose qu'un navigateur, sauf que la sortie c'est pas dans le navigateur, c'est dans un PDF. Vous avez pris combien de temps à développer ça? Ouf! Je sais pas, ça fait 15 ans que ça existe bientôt, donc ça fait quand même un petit bout de temps. Et puis après il y a eu des tonnes et des tonnes de spec et puis ça va, plus ça va et plus il y en a. Et donc bah nous on implém à chaque fois comme fait Google avec Chrome, comme fait Mozilla avec Firefox, on implémente les nouveautés derrière. Sauf que nous, on a aussi toute une partie que les navigateurs font pas. toutes les fonctionnalités qui vont être dans le PDF, toutes les métadonnées, gérer les couleurs, gérer les notes de bas de page, gérer euh bah les numéros de pages, les positionner dans les marges de page, les pages de gauche, les pages de droite. Et justement, je pense c'est bien de nous donner des exemples un peu extrêmes. Donc tu nous as donné notamment une démo où c'est euh les le réseau lyonnais de métro, je crois, de Ouais, de bus et métro. Bus et métro en PDF où on voit un peu justement toutes les différentes couches. H ça c'est lourd. quoi, c'est une dizaine de méas et surtout c'est fait d'une telle manière est-ce que tout est vectoriel donc tout est vraiment des traits à chaque fois et on voit par exemple il y a un moment où il y a un pattern bah là on le voit qui arrive bah toutes les petits trails sont dessiné les uns après les autres à la suite et on voit tout ou donc là c'est le moteur de rendu globalement au ralenti. Ouais c'est même pas au ralenti. Ça c'est dans mon navigateur c'est la vitesse vitesse normale tellement complexe. Ouais, c'est un gros PDF et surtout tout tout à l'intérieur est c'est pas juste une image, c'est vraiment tout est vectoriel. Donc il y a des des millions et des millions d'objets à l'intérieur. Et euh par contre ce qui est bien c'est que après on peut zoomer à l'infini et ça reste vectoriel. Donc on peut voir toutes les lignes où elles passent et tout. Et oui, c'est ça. C'est pas une image. C'est pas une image. Et c'est ça qui est super intéressant dans le PDF. Quand on a du PDF avec du vectoriel à l'intérieur, on peut zoomer à l'infini dedans et voir. Donc ça c'est un exemple qui marche même. Il y en a beaucoup des PDF qui sont très lourds. Celui-là est bien parce que c'est 10 M dans une seule page. Donc on voit la seule page se dessiner au fur et à mesure. Il prend tous les objets et il les affiche tous dans l'ordre. Et c'est la même chose que ce qu'on ferait si on lisait les instructions nous à la main comme on l'a fait tout à l'heure. Et en fait pour faire le pour le décrire quand même, c'est que Wizprint c'est devenu un une brique hyper standard en fait. Pour nous nous donner quelques exemples un petit peu, c'est qui utilise ça aujourd'hui? Alors c'est très frustrant parce qu'on peut pas savoir qui l'utilise. Ce qu'on sait c'est qu'on a des chiffres de téléchargement, ça on le sait, qui sont partiels mais qui sont ce qu'ils ont. Le mois dernier, c'était 11 millions de téléchargements. Donc ça commence à faire pas mal sur le mois. Sur le mois. Donc c'est plutôt c'est plutôt bien. C'est fait en Python, donc c'est pas dans la bibliothèque de Python dans le top 1 % donc ça reste quand même assez important. Waouh! Il y a plein de projets libres qui existent qui sont faits par plein d'entreprises. Ça, on sait qu'ils l'utilisent. Euh, on a regardé, il y a des applications pour pouvoir retrouver les dépendances, donc c'est assez facile aujourd'hui, qui utilise Weizy Print ou les dépendances de Wizprints qu'on développe, toutes les grosses entreprises euh qu'on peut auxquelles on peut penser, les cinq lettres de gafam mettez dedans, mais il y a SAP, il y a Mercedes, il y a Vous êtes tout open source et ça c'est tout open source. Avant de vous quitter, j'ai un petit message pour tous ceux qui aimeraient simplifier la production de vidéo dans leur entreprise. Vous allez forcément être intéressé par nos studios autonome. Ce sont des studios professionnels complètement automatisés qui peuvent être installés dans votre entreprise. C'est exactement ce qui fait marcher le studio d'ersore. Même quelqu'un qui n'y connaît rien en informatique ou en audiovisuel peut sans devoir appeler un technicien se rendre dans la salle qui a été équipée, allumer le studio en un clic et repartir avec son émission montée. L'interface de contrôle est ultra simple, les changements de plan se font en temps réel et le studio regorge de fonctionnalités intelligentes. Si vous voulez en savoir plus, on a fait une vidéo complète qui présente toutes les fonctionnalités. Je vous mets ça en description et je vous dis à très bientôt.

More from AI