The English version of this article is  here.


Il y a quelques années j’ai fait l’acquisition de Kaputt de Malaparte, traduit par Juliette Bertrand et édité chez Denoël en 2006. Comme souvent, je n’ai qu’un souvenir très vague de l’intrigue. En revanche, ma mémoire restera longtemps marquée par les images puissantes nées sous la plume de Malaparte : la terreur des soldats allemands à la vue des chiens qui, dans les plaines d’Ukraine, sont tous des bombes incendiaires en puissance, les cris déchirant la nuit du pogrom de Jassy, ou encore cet élan, agonisant au beau milieu de la cour du palais présidentiel d’Helsinki. J’associe également ce grand texte à la sensation d’un gâchis immense. Je me souviens avoir été choqué de constater un nombre de coquilles tout bonnement hallucinant : des « u » devenus « n » (et inversement), des « I » transformés en « l »,… Jamais je n’avais vu un tel travail de gougnaffier. Ces erreurs sont typiques d’un travail fait à la va-vite, sans l’aune d’une correction. L’éditeur est pourtant censé être le garant de la qualité de ce qu’il publie, il est de son devoir de ne pas trahir l’auteur et son texte.

Si fort heureusement je n’ai plus rencontré de tels cas de manque de respect total envers les auteurs et leur public dans mes lectures ultérieures, j’ai pu en revanche constater qu’une telle approche est assez fréquente dans le monde de l’édition scientifique.

Les erreurs les plus fréquentes proviennent d’une mauvaise OCRisation et d’un rendu utilisant l’ASCII et non l’UTF-8. Lorsque les éditeurs scientifiques ont numérisé leurs « archives » aux alentours des années 2000, ils se sont probablement contentés de tout faire avaler par un scanner de masse. Au diable les diacritiques, les symboles mathématiques, les tables et autres erreurs classiques d’OCR. Un pdf pour l’image, un OCR à la hache pour le texte, le travail était fait.

Le problème est que la lecture scientifique est bien évidemment différente de la lecture de loisir, et que la mise à disposition en version électronique de revues académiques est normalement synonyme de plus-value, de gain de temps et d’efficacité. Un humain lisant sur écran un article disponible uniquement en pdf image (représentant par exemple 0,5 % des articles disponibles sur Science Direct, soit quand même environ 44 000 articles), ou en pdf texte issu d’une mauvaise OCRisation peut faire au pire une expérience désagréable : recherches « CTRL+F » infructueuses alors que le texte est bien présent dans le document, difficultés de réutiliser le contenu,…

En revanche dans de nombreuses disciplines scientifiques se développe la pratique de la fouille de contenu (Text and data mining ou content mining), une lecture computationnelle faite par des machines et permettant d’analyser des corpus de plusieurs dizaines, centaines, milliers de documents. Avant de pouvoir analyser les éventuels liens distants ou sous-jacents entre deux gènes, deux molécules, deux phénomènes, il faut permettre aux machines de comprendre ce qu’elles lisent, en leur apprenant par exemple à reconnaître automatiquement ces termes spécifiques, appelés entités nommées, quel que soit le contexte dans lequel ils sont employés. Encore avant de faire cela, il faut tout simplement apprendre à une machine à reconnaître la structure d’un document afin qu’elle puisse identifier si elle traite un titre, un paragraphe, une citation, … Un pdf issu d’OCRisation ne propose pas ce type de balisage. Tout est à plat, au même niveau (texte, notes de bas de page, et même en-tête et numéro de page), les fins de ligne sont encodées en dur. Même si plusieurs projets existent pour convertir du pdf en xml, le travail de pré-traitement est énorme et, surtout, redondant : les projets de recherche s’appuyant sur des corpus semblables devront faire les pré-traitements équivalents dans leur coin, puisqu’ils ne sont pas pris en charge par l’éditeur.

Certains éditeurs sûrement pétris de bonne volonté semblent penser que la solution miracle est de fournir du XML. Las, quand les tentatives se limitent à fournir le strict minimum, soit le corps entier d’un article entre deux balises <body></body> (voire entre des balises meta de l’en-tête), le résultat n’est pas tout à fait conforme aux attentes…

On pourrait imaginer qu’il s’agit là d’erreurs de jeunesse, du résultat de pratiques pionnières antérieures aux normes et standards à une époque où il fallait tout inventer. A la louche, cela représenterait quand même un peu plus de la moitié des articles scientifiques disponibles, ce qui n’est pas anodin.

Il est vrai que pour les contenus récents et nés numériques, les problèmes de structuration du texte sont moindres que pour ceux issus d’une numérisation, quand bien même il n’est pas satisfaisant de constater que plusieurs éditeurs, à commencer par Elsevier, préfèrent utiliser leurs DTD maison et propriétaire plutôt qu’un standard comme JATS. Mais cette solution ne règle pas tout. Même à l’heure actuelle, on constate de nombreux défauts qui empêchent les machines – et donc les chercheurs – d’exploiter de manière optimale les textes qu’ils analysent : utilisation « maison » de l’UTF-8 qui peut avoir des conséquences désastreuses dans certains champs disciplinaires, absence de considération pour les recommandations spécifiques W3C comme MathML, conversion d’images vectorielles en simple amas de pixels…

Comme Denoël avec Kaputt, bon nombre d’éditeurs scientifiques ne respectent pas les manuscrits des auteurs qui, eux, contiennent toute cette richesse. On a l’impression, pour des contenus assez anciens, que ces manuscrits originaux, parfois écrits en TeX ou LaTeX  ont été perdus et remplacés par de l’OCR bas de gamme (comme l’illustre  cet exemple parmi bien d’autres  – Oui, vous lisez « Typesetting by the editors in TeX » mais votre ordinateur lit « Typesetting by the editors in 1l9 »). Mais de la même façon qu’il est possible de trouver le texte du roman de Malaparte dans une meilleure qualité (en version poche par exemple), il est étonnamment possible de trouver de meilleures versions d’articles ailleurs que chez l’éditeur. Pour les contenus anciens, les agrégateurs semblent faire un meilleur travail que les éditeurs et l’OCRisation a manifestement été plus contrôlée. On comparera par exemple avec profit les résultats que renvoie la revue The Quarterly Journal of Economics chez OUP, EBSCO et JSTOR. Pour les contenus récents, les manuscrits d’auteurs disponibles sur les dépôts institutionnels ou thématiques (en premier lieu arxiv.org) seront probablement plus exploitables techniquement.

Quand bien même nous vivrions dans un monde idéal où l’activité de text et data mining serait possible de manière claire, transparente et sans licence particulière (je ne reviens pas sur la question brûlante du statut juridique de la fouille de contenu mais une excellente synthèse peut se trouver ici), les chercheurs resteraient confrontés à ce problème de qualité qui nuit à leurs travaux.

Jusqu’à présent, les bibliothécaires ont plutôt focalisé leur attention sur la qualité des métadonnées et nous savons tous que le chantier n’est pas mince. Pour autant, peut-être devrions-nous  également nous saisir de cette question de la qualité des données qui affecte aussi les outils que nous mettons à disposition de nos usagers. Par ailleurs, ne devrions-nous pas pousser pour que les outils de découverte puissent également proposer des outils facilitant le TDM, en sélectionnant par exemple les sources de meilleure qualité, en facilitant des téléchargements massifs (un peu à la Pubget)? Est-ce une direction que souhaitent ou peuvent prendre les fournisseurs d’outils de découverte qui deviendraient alors également des outils de text et data mining ?

Dans tous les cas, il semble assez évident qu’il ne faut pas prendre pour argent comptant les discours des éditeurs s’auto-proclamant champions de la qualité en s’interrogeant systématiquement sur la valeur qu’ils disent ajouter aux contenus soumis par les auteurs. Peut-être même que les éditeurs académiques portent atteinte au droit moral des auteurs lorsqu’ils publient un OCR pourri.