Editeurs et usagers


The English version of this article is  here.


Il y a quelques années j’ai fait l’acquisition de Kaputt de Malaparte, traduit par Juliette Bertrand et édité chez Denoël en 2006. Comme souvent, je n’ai qu’un souvenir très vague de l’intrigue. En revanche, ma mémoire restera longtemps marquée par les images puissantes nées sous la plume de Malaparte : la terreur des soldats allemands à la vue des chiens qui, dans les plaines d’Ukraine, sont tous des bombes incendiaires en puissance, les cris déchirant la nuit du pogrom de Jassy, ou encore cet élan, agonisant au beau milieu de la cour du palais présidentiel d’Helsinki. J’associe également ce grand texte à la sensation d’un gâchis immense. Je me souviens avoir été choqué de constater un nombre de coquilles tout bonnement hallucinant : des « u » devenus « n » (et inversement), des « I » transformés en « l »,… Jamais je n’avais vu un tel travail de gougnaffier. Ces erreurs sont typiques d’un travail fait à la va-vite, sans l’aune d’une correction. L’éditeur est pourtant censé être le garant de la qualité de ce qu’il publie, il est de son devoir de ne pas trahir l’auteur et son texte.

Si fort heureusement je n’ai plus rencontré de tels cas de manque de respect total envers les auteurs et leur public dans mes lectures ultérieures, j’ai pu en revanche constater qu’une telle approche est assez fréquente dans le monde de l’édition scientifique.

Les erreurs les plus fréquentes proviennent d’une mauvaise OCRisation et d’un rendu utilisant l’ASCII et non l’UTF-8. Lorsque les éditeurs scientifiques ont numérisé leurs « archives » aux alentours des années 2000, ils se sont probablement contentés de tout faire avaler par un scanner de masse. Au diable les diacritiques, les symboles mathématiques, les tables et autres erreurs classiques d’OCR. Un pdf pour l’image, un OCR à la hache pour le texte, le travail était fait.

Le problème est que la lecture scientifique est bien évidemment différente de la lecture de loisir, et que la mise à disposition en version électronique de revues académiques est normalement synonyme de plus-value, de gain de temps et d’efficacité. Un humain lisant sur écran un article disponible uniquement en pdf image (représentant par exemple 0,5 % des articles disponibles sur Science Direct, soit quand même environ 44 000 articles), ou en pdf texte issu d’une mauvaise OCRisation peut faire au pire une expérience désagréable : recherches « CTRL+F » infructueuses alors que le texte est bien présent dans le document, difficultés de réutiliser le contenu,…

En revanche dans de nombreuses disciplines scientifiques se développe la pratique de la fouille de contenu (Text and data mining ou content mining), une lecture computationnelle faite par des machines et permettant d’analyser des corpus de plusieurs dizaines, centaines, milliers de documents. Avant de pouvoir analyser les éventuels liens distants ou sous-jacents entre deux gènes, deux molécules, deux phénomènes, il faut permettre aux machines de comprendre ce qu’elles lisent, en leur apprenant par exemple à reconnaître automatiquement ces termes spécifiques, appelés entités nommées, quel que soit le contexte dans lequel ils sont employés. Encore avant de faire cela, il faut tout simplement apprendre à une machine à reconnaître la structure d’un document afin qu’elle puisse identifier si elle traite un titre, un paragraphe, une citation, … Un pdf issu d’OCRisation ne propose pas ce type de balisage. Tout est à plat, au même niveau (texte, notes de bas de page, et même en-tête et numéro de page), les fins de ligne sont encodées en dur. Même si plusieurs projets existent pour convertir du pdf en xml, le travail de pré-traitement est énorme et, surtout, redondant : les projets de recherche s’appuyant sur des corpus semblables devront faire les pré-traitements équivalents dans leur coin, puisqu’ils ne sont pas pris en charge par l’éditeur.

Certains éditeurs sûrement pétris de bonne volonté semblent penser que la solution miracle est de fournir du XML. Las, quand les tentatives se limitent à fournir le strict minimum, soit le corps entier d’un article entre deux balises <body></body> (voire entre des balises meta de l’en-tête), le résultat n’est pas tout à fait conforme aux attentes…

On pourrait imaginer qu’il s’agit là d’erreurs de jeunesse, du résultat de pratiques pionnières antérieures aux normes et standards à une époque où il fallait tout inventer. A la louche, cela représenterait quand même un peu plus de la moitié des articles scientifiques disponibles, ce qui n’est pas anodin.

Il est vrai que pour les contenus récents et nés numériques, les problèmes de structuration du texte sont moindres que pour ceux issus d’une numérisation, quand bien même il n’est pas satisfaisant de constater que plusieurs éditeurs, à commencer par Elsevier, préfèrent utiliser leurs DTD maison et propriétaire plutôt qu’un standard comme JATS. Mais cette solution ne règle pas tout. Même à l’heure actuelle, on constate de nombreux défauts qui empêchent les machines – et donc les chercheurs – d’exploiter de manière optimale les textes qu’ils analysent : utilisation « maison » de l’UTF-8 qui peut avoir des conséquences désastreuses dans certains champs disciplinaires, absence de considération pour les recommandations spécifiques W3C comme MathML, conversion d’images vectorielles en simple amas de pixels…

Comme Denoël avec Kaputt, bon nombre d’éditeurs scientifiques ne respectent pas les manuscrits des auteurs qui, eux, contiennent toute cette richesse. On a l’impression, pour des contenus assez anciens, que ces manuscrits originaux, parfois écrits en TeX ou LaTeX  ont été perdus et remplacés par de l’OCR bas de gamme (comme l’illustre  cet exemple parmi bien d’autres  – Oui, vous lisez « Typesetting by the editors in TeX » mais votre ordinateur lit « Typesetting by the editors in 1l9 »). Mais de la même façon qu’il est possible de trouver le texte du roman de Malaparte dans une meilleure qualité (en version poche par exemple), il est étonnamment possible de trouver de meilleures versions d’articles ailleurs que chez l’éditeur. Pour les contenus anciens, les agrégateurs semblent faire un meilleur travail que les éditeurs et l’OCRisation a manifestement été plus contrôlée. On comparera par exemple avec profit les résultats que renvoie la revue The Quarterly Journal of Economics chez OUP, EBSCO et JSTOR. Pour les contenus récents, les manuscrits d’auteurs disponibles sur les dépôts institutionnels ou thématiques (en premier lieu arxiv.org) seront probablement plus exploitables techniquement.

Quand bien même nous vivrions dans un monde idéal où l’activité de text et data mining serait possible de manière claire, transparente et sans licence particulière (je ne reviens pas sur la question brûlante du statut juridique de la fouille de contenu mais une excellente synthèse peut se trouver ici), les chercheurs resteraient confrontés à ce problème de qualité qui nuit à leurs travaux.

Jusqu’à présent, les bibliothécaires ont plutôt focalisé leur attention sur la qualité des métadonnées et nous savons tous que le chantier n’est pas mince. Pour autant, peut-être devrions-nous  également nous saisir de cette question de la qualité des données qui affecte aussi les outils que nous mettons à disposition de nos usagers. Par ailleurs, ne devrions-nous pas pousser pour que les outils de découverte puissent également proposer des outils facilitant le TDM, en sélectionnant par exemple les sources de meilleure qualité, en facilitant des téléchargements massifs (un peu à la Pubget)? Est-ce une direction que souhaitent ou peuvent prendre les fournisseurs d’outils de découverte qui deviendraient alors également des outils de text et data mining ?

Dans tous les cas, il semble assez évident qu’il ne faut pas prendre pour argent comptant les discours des éditeurs s’auto-proclamant champions de la qualité en s’interrogeant systématiquement sur la valeur qu’ils disent ajouter aux contenus soumis par les auteurs. Peut-être même que les éditeurs académiques portent atteinte au droit moral des auteurs lorsqu’ils publient un OCR pourri.

 

La version française de cet article est ici.


A few years ago I bought Malapartes’s Kaputt, translated into French by Juliette Bertrand and published by Denoël in 2006. As usual, I hardly remember the plot. However, I will remember for a long time the powerful images created by Malaparte : the German soldiers terrorised by the anti-tank Ukrainians dogs, the screams in the night during Jassy pogrom, the moose dying right in the middle of Helsinki’s presidential palace’s court.

I also associate this wonderful text with the feeling of a huge waste. I remember having been chocked by the amazingly high amount of typos : u instead of n (and vice-versa), l instead of I,… I had never seen such a poor work. These mistakes are typical. The publisher is however supposed to guarantee the quality of the published content, and he has not to betray the author and his text.

Although I have fortunately never encountered again such a lack of respect for the authors and their readership, I did notice that such a wrong behaviour happened quite often in scholarly publishing.
Most errors come from a bad OCR and an output in ASCII rather than in UTF-8. When academic publishers digitised their backfiles in the early 2000’s, they probably had all processed through a bulk scanner. To the hell with diacritics, math symbols, tables and other usual OCR mistakes. A pdf file for the image, a poor OCR output for the text, and the job is done.

Problem is that a scholar does not read the same way as a casual reader does. The electronic version of an article should enhance the global experience that would become swifter and more efficient. When a human being reads an article only available in image mode pdf (which represents roughly 0,5% of the articles on Science Direct, about 44 000 articles) or coming from a poor OCR, he might at its worst have a bad user experience : “CTRL+F” research that leads to nothing although the text is in the document, difficulties to reuse the content,…
In a lot of research fields text and data mining (or content mining) is expanding, letting machines analyse corpuses of several hundreds or thousands documents. Before being able to analyse probable underlying or distant bonds between two genes, two molecules, to phenomenons, machines have to be taught how to automatically recognise specific terms called named entities, according to the context. But even before that, they must simply be taught how to read a text so they can identify whether they deal with a title, a paragraph, or a citation. A pdf with an OCR layer does not have tags. Everything is at the same level: text, notes, and even headers and page numbers. End of lines are hard coded. Even if several projects aiming at converting pdf to xml do exist, the pre-processing tasks are huge but also redundant: research projects that rely on similar corpuses have to do the same pre-processing work since the publisher does not.

Some benevolent publishers seem to think that XML is the magic answer. Alas, when they only stick to the minimal requirements and put the whole article’s body between two <body></body> tags (and in some cases between header meta tags), we cannot say that the job is properly done…

So let’s say it is a youthful error coming from pioneering practices at a time when no standards existed and when everything had to be invented. Still, we are talking here about roughly half of the scholarly output ever, which is quite significant.

For born digital content, problems related to text structure are less present, even though it is not satisfactory that some publishers, starting with Elsevier, use their own proprietary DTD and not a standard like JATS. But this solution does not settle all. Even now, there are some flaws that prevent machines – hence scholars – from using at its best the texts they analyse : home made use of UTF-8, lack of consideration for W3C guidelines like MathML, conversion of vector images into a plain bulk of pixels…

Like Denoël for Kaputt, a lot of publishers do not respect the rich manuscripts sent by the authors. It is like they have lost these manuscripts, sometimes written with TeX or LaTeX, and used instead cheap OCR (as shown by this example, among others – Yes, you read « Typesetting by the editors in TeX » but your computer reads « Typesetting by the editors in 1l9 »). But as it is possible to find a better version of Malaparte’s text, it is surprisingly possible to find better version of articles outside of the publishers’ websites. For older content, aggregators seem to have done a better work than the publishers, and the OCR process was probably better monitored. A nice example is the Quarterly journal of economics which can be found on OUP, EBSO, and JSTOR platforms. For more recent content, the sources uploaded by the authors on institutional or subject repositories (like arxiv.org) are probably more reliable.
Did we live in an ideal world where text and data mining activities would be possible in a clearer and more transparent way, without any particular licence, scholars would still have to face with this quality issue which harms their work.

So far librarians are more focused on metadata quality issues, and we all know it is a big deal. But perhaps should we seize this data quality issue that also harms the tools we offer to our patrons. Shouldn’t we ask for instance that discovery tools include TDM tools showing first better quality sources or making bulk downloads easier (à la Pubget for instance) ? Is this a way vendors wish or can follow ?
Anyway, it seems pretty obvious that we should not take for granted the publisher’s statement presenting themselves as quality champions by systematically question the value they say they add to the contents provided by the authors. Maybe academic publishers even infringe the authors moral rights when they produce crappy OCR output.

La récente menace de pandémie-on-va-tous-mourir a quelques effets intéressants sur la documentation. Ainsi, La National Academy of Sciences of the United States of America, éditeur entre autres des PNAS, offre l’accès à tous les articles concernant le H1N1 publiés dans ses colonnes (soit une centaine), tout comme téléchargement d’un livre intitulé « Microbial Threats to Health:The Threat of Pandemic Influenza ».
Parallèlement, EBSCO a annoncé que la partie de sa base Dynamed concernant ce même ensemble de virus était dorénavant ouverte à tous.
Loin de moi l’idée de critiquer ces initiatives louables. Inversons cependant le point de vue. Même si je ne me sens pas personnellement concerné par cette maladie (mes tests sont négatifs), force est de constater que ce virus semble, à l’heure où j’écris, surtout toucher des pays riches. Y a-t-il des actions semblables, doublées d’annonces, pour le paludisme (entre 1,5 et 3 millions de morts parmi lesquels 90 % d’Africains), le SIDA (2,1 millions de morts en 2007 parmi lesquels 75% d’Africains) ou toute autre maladie touchant principalement des populations pauvres ? Certes, on pourra m’opposer que dès 2001 les plus grands éditeurs du domaine biomédical (Elsevier, LWW, Springer, Wiley-Blackwell), rapidement rejoints par d’autres, ont adhéré au programme de l’OMS HINARI permettant aux pays en voie de développement d’avoir accès gratuitement ou contre un abonnement modique (1000 $) à plus de 3400 revues. Formidable.
Pour autant, cette action n’est pas liée à un programme de développement de parc informatique ou d’amélioration de la disponibilité et de la qualité de la bande passante. Or, selon l’African University Network, rattachée au consortium Global Virtual University, la bande passante pour l’ensemble d’une université africaine moyenne équivaut à celle d’un logement privé en Europe ou en Amérique du Nord. Dès lors, on s’aperçoit rapidement du caractère, sinon vain, au moins très incertain d’une telle entreprise. Mais voilà : autant ouvrir des robinets de flux d’informations ne coûte rien ou pas grand chose, autant permettre réellement l’accès à ce flux nécessite de sérieux investissements.
Dans le cas de la grippe comme dans celui d’HINARI, les éditeurs se sont donc acheté une bonne conscience à peu de frais.

La plupart des ressources électroniques en Droit présentent la particularité de s’adresser à la fois à un public d’étudiants, d’enseignants-chercheurs, mais aussi de praticiens/professionnels. A une échelle moindre, cela est également vrai pour certains produits de santé (les EMC, notamment, mais aussi certaines revues dont l’abonnement octroie des crédits de formation médicale continue – La Revue du Praticien par exemple), et probablement pour d’autres produits encore (Les Techniques de l’Ingénieur).

Par rapport au chiffre d’affaire généré par la clientèle privée, la somme des abonnements souscrits par les universités représente une part bien minoritaire (de l’ordre de 20 à 25%, selon les différents échos). Même si ces divers produits nous semblent chers et pèsent sur notre budget, les tarifs sont bien moindres, proportionnellement, que ceux proposés à la clientèle privée. Dans ce cas, la notion de « tarif public » a une réelle signification. Le travail des négociateurs Couperin prend alors tout son sens, puisqu’il permet de faire baisser de façon substantielle ces tarifs publics.

Pour autant, les éditeurs ont tout intérêt à nous proposer les prix les plus intéressants et raisonnables possible : ils ont là en effet un excellent partenaire de biberonnage. Nous proposons leurs produits à leurs futurs clients, nous formons gracieusement ces derniers, etc.

Sous cette forme, le biberonnage est de bonne guerre. Parallèlement, les éditeurs développent dans le même but, avec un succès que j’ignore, des offres alléchantes « spéciales étudiants ». Rien à redire.

Je perçois d’un oeil moins bienveillant certaines opérations de marketing que je qualifierais volontiers d’agressives. C’est le cas par exemple de la Navis Cup, à l’initiative des éditions Francis Lefebvre. Les intentions de l’éditeur ont au moins le mérite d’être claires. Sous prétexte d’équiper nos chers « digital natives » en ultra-portables et de faire grâce à l’établissement en tête du concours d’une année d’abonnement au Navis Intégral, EFL veut entre autres « Familiariser les étudiants à l’utilisation des ressources électroniques » (comme Google veut familiariser les collégiens à l’usage d’Internet) et « Renforcer la notoriété de Navis auprès des étudiants », notamment dans le cadre d’une nouvelle version de leur plate-forme qui laisse un peu à désirer.

La campagne marketing autour de l’événement est particulièrement importante.

Parmi les joyeusetés habituelles (affiches, flyers,…), et des annonces du type « les blogs en parlent déjà » (vous allez pointer sur le mien ou sur precisement.org ?) EFL innove en faisant du:

« street marketing » à la sortie d’établissements de 5 grandes villes universitaires : Paris, Aix en Provence, Lille, Strasbourg, Lyon, Rennes et Montpellier : des intervenants en robe d’avocat marquée Navis Cup distribueront aux étudiants des dépliants, des bulletins d’inscription et des cadeaux pour les inciter à participer au jeu

Malheureusement, je ne suis pas basé en fac de Droit et n’aurai pas la joie d’assister à ce charmant spectale.

Par ailleurs, EFL incite les bibliothèques à créer un identifiant « NavisCup » et de ce fait à participer activement non pas à un simple et innocent test mais à la campagne de marketing à proprement parler. L’argumentaire pour séduire les bibliothèques est enfin parcouru de divers relents de l’air du temps (« Accroître la renommée de l’établissement pour les premiers du classement (qui seuls seront cités). ») qui m’ont laissé quelque peu dubitatif.

Je ne relaierai pas cette campagne ( notre site annonce simplement un test d’un mois). Je n’ai que faire des ambitions commerciales d’EFL concernant ses futurs clients qui seront nos ex-usagers (sauf s’ils viennent s’inscrire – venez, venez !). Et je ne mettrai pas de robe d’avocat siglée SCD.

Travaillant dans une université de « Droit et Santé », j’ai une vision un peu tronquée de la documentation électronique. A ma gauche, un monde où l’anglais est la norme et où les publications et produits en français sont regardés, si ce n’est avec condescendance, au moins avec une certaine réserve (« c’est bon pour les étudiants » peut-on entendre – je reviendrai probablement là-dessus). Elsevier, Lippincott Williams & Wilkins (Wolters Kluwer), et d’autres mastodontes du genre règnent en maître. A ma droite un domaine qui, pour des raisons évidentes (l’étude des système juridiques de pays étrangers est secondaire dans les offres de formation), s’appuie principalement sur des textes et des produits en français, compilés et publiés par des éditeurs français – logique. On y trouve de vénérables insitutions, Dalloz, Juris Classeurs,…

Les plates-formes des gros éditeurs proposant des ressources documentaires dans le domaine de la médecine ont généralement bonne presse. Science Direct nous coûte cher, certes, mais nous propose depuis longtemps déjà (ma courte expérience équivaut à une éternité sur le web) reconnaissance IP, interface d’administration et de statistiques, flux RSS, accès distant via Shibboleth,… Elsevier semble par ailleurs suivre de près les évolutions techniques et les nouvelles pratiques, proposant, probablement non sans arrière-pensée, des services 2.0 « à la pointe ». En revanche, même si on ne peut nier leurs évolutions récentes, les plates-formes juridiques françaises

  • sont souvent d’une affligeante indigence en terme de services « modernes » (Marlène pointe ici le cas des flux RSS. Ni Lexbase , « le premier éditeur 100 % Internet »  ni Legalnews, un service d’actualité juridique, n’en proposent)
  • ne fournissent pas de statistiques et d’interfaces d’administration
  • sont terriblement complexes à interroger
  • sont parfois tout simplement incompréhensibles pour les usagers (Robert l’évoque )

Pourquoi ?

Eh bien, pour répondre aux deux premiers points, c’est la crise, ça coûte cher de faire une plate-forme (nous en avons suffisamment fait les frais…), faut bien vivre… OK. Je sais bien qu’un bon site ne se fait pas en claquant des doigts et qu’il ya des investissements à faire. Mais qui sont nos éditeurs franchouillards ? Les Juris Classeurs sont produits par Lexis-Nexis qui appartient à Reed Elsevier. 2LR appartient Wolters Kluwer, le Doctrinal à Thomson, Dalloz aux Editions Lefevbre Sarrut… On est loin des petits boutiquiers, et on reconnaît au passage des noms d’éditeurs qui, dans d’autres domaines, offrent par ailleurs des produits bien plus performants.  L’expertise est donc présente, surtout dans ces groupes.

Cette explication devient alors peu satisfaisante. En tout cas, nous ne devons sûrement pas nous en contenter.

Je vois en revanche dans cette attitude qu’ont les éditeurs vis à vis de ce public spécifique la manifestation d’une conception un peu caricaturale de ce dernier.  » Les juristes aiment le papier et l’odeur d’encaustique (contrairement aux scientifiques qui aiment les écrans et le ronronnement de leur PC), on va quand même pas se compliquer la vie en leur proposant des services qu’ils ne sauront pas utiliser « . Or, je ne l’apprends à personne, ce public est bel et bien demandeur de docelec. Je n’ai certes pas de statistiques pertinentes pour asseoir mon propos (la bonne blague), mais je puis vous affirmer que je suis mis immédiatement au courant  dès qu’un produit juridique n’est plus accessible, pour une raison ou une autre. Je pense que l’attachement au papier ou a des supports obsolètes (CD-ROM) n’est pas tant dû à un quelconque conservatisme qu’au fait que nos juristes ne trouvent pas encore tout à fait leur compte avec ces produits.

Pour les deux autres points, j’y vois une raison plus interne au champ juridique. Il faudrait que je relise Bourdieu, mais il me semble que dans la Noblesse d’Etat ce dernier évoque le fait que la complexification du droit est en fait une stratégie des hommes de loi pour monopoliser ce champ (je ne vérifie pas mes sources, je sais, c’est mal). La complexification des bases de données juridiques est peut-être un corollaire de cela. Cette explication vaut ce qu’elle vaut.

Sans doute aussi faut-il voir la protection de bases au contenu extrêmement riche derrière de multiples formulaires comme un moyen de se protéger contre tout usager, en qui, on le sait, sommeille un pirate.

Il y aurait enfin une dernière explication de tout cela, en laquelle je me refuse de croire : les éditeurs juridiques français sont incompétents et/ou mal conseillés.

Une lueur d’espoir cependant : il se tramerait des choses autour de l’UNJF et des accès via Shibboleth. J’attends.

Suivre

Recevez les nouvelles publications par mail.