©HB

Le PDF reste le format le plus utilisé au monde, et l'IA ne sait toujours pas le lire correctement

Le PDF reste le format le plus utilisé au monde, et l'IA ne sait toujours pas le lire correctement

Le PDF reste le format le plus utilisé au monde, et l'IA ne sait toujours pas le lire correctement

Malgré des milliards investis dans l'intelligence artificielle, le format PDF résiste à la compréhension machine. Pour les institutions assises sur des décennies d'archives numérisées, c'est un problème structurel.

HaitiBrand Digital

Adobe a créé le PDF au début des années 1990 avec un objectif précis : qu'un document s'affiche exactement de la même manière sur n'importe quel écran, n'importe quelle imprimante. Trente ans plus tard, cet objectif a été atteint au-delà de toute espérance. Le PDF est devenu le format universel des contrats, des rapports financiers, des documents légaux, des archives gouvernementales. Mais ce qui fait sa force pour l'œil humain est exactement ce qui le rend illisible pour une machine.

Le problème est architectural. Un PDF ne stocke pas du texte structuré. Il stocke des instructions de rendu visuel : « place ce caractère à ces coordonnées, dans cette police, à cette taille ». Une colonne, un tableau, un en-tête : tout ça n'existe que visuellement. Pour un modèle d'IA qui tente d'extraire de l'information, c'est l'équivalent de lire un livre en regardant une photo de chaque page, sans jamais toucher au texte lui-même.

L'industrie a pris le problème au sérieux. Reducto, une startup fondée par Adit Abraham, a développé un pipeline multi-modèles combinant OCR classique et modèles de vision. L'Allen Institute for AI a publié olmOCR, un outil open source conçu pour le traitement académique à grande échelle. Hugging Face héberge RolmOCR, un fork communautaire encore plus léger. Google Gemini et les modèles conversationnels comme ChatGPT proposent aussi des fonctions d'extraction PDF. Les progrès sont réels : 1,3 milliard de PDF indexés dans le Common Crawl ont été convertis en « trois trillions de tokens », selon les chercheurs.

Mais comme le résume Luca Soldaini de l'Allen Institute : le problème est « résolu à 98 % ». Ce sont les deux derniers pour cent qui comptent. Un tableau mal aligné, un scan de mauvaise qualité, une note manuscrite en marge, un formulaire gouvernemental des années 1990 avec des cases à cocher : c'est là que tous les outils échouent. Et c'est précisément dans ces deux pour cent que se trouvent les informations les plus critiques, les annexes de contrats, les détails de transactions financières.

Le cas le plus parlant reste celui des fichiers Epstein. Des milliers de documents judiciaires, numérisés en PDF, contenant des noms, des dates, des lieux, des connexions entre individus. Les projets Jmail et Jflights ont tenté d'extraire ces données automatiquement. Résultat : même les meilleurs outils produisent des erreurs sur les documents les plus sensibles. La précision à 98 % ne suffit pas quand chaque erreur peut fausser une enquête.

Pour les institutions haïtiennes, le constat est directement applicable. Les ministères, les banques, les tribunaux, les organisations internationales présentes en Haïti : tous fonctionnent sur des archives PDF accumulées sur des décennies. Numériser ces documents ne suffit pas. Les rendre lisibles par une machine, les indexer, les croiser, les interroger automatiquement, c'est un chantier technique que même les géants de la Silicon Valley n'ont pas terminé.

Ce que révèle cette course au parsing PDF, c'est que la donnée non structurée reste le vrai goulot d'étranglement de l'ère numérique. Les entreprises et les gouvernements qui investissent dans l'IA sans d'abord structurer leurs archives construisent sur du sable. L'outil miracle n'existe pas encore. En attendant, la stratégie la plus fiable reste hybride : extraction automatique pour le volume, accompagnée d'une vérification humaine pour les cas critiques.

Le PDF a été conçu pour être lu par des humains. Trente ans plus tard, il résiste encore aux machines. C'est un rappel utile : la transformation numérique ne commence pas par l'intelligence artificielle. Elle commence par la qualité des données sur lesquelles on la construit.

Sources : The Verge (Josh Dzieza, 23 février 2026) · PDF Association (Duff Johnson) · Allen Institute for AI · Reducto · Hugging Face · Common Crawl

Share and educate your network

Share on Linkedin

Enjoyed this read? Subscribe now and receive all the latest and greatest articles straight to your inbox. All original. Community first. 100% ad-free.

Enjoyed this read? Subscribe now and receive all the latest and greatest articles straight to your inbox. All original. Community first. 100% ad-free.

85

Joined already

85

Joined already

85

Joined already

logo