The English version of this article is  here.


Il y a quelques années j’ai fait l’acquisition de Kaputt de Malaparte, traduit par Juliette Bertrand et édité chez Denoël en 2006. Comme souvent, je n’ai qu’un souvenir très vague de l’intrigue. En revanche, ma mémoire restera longtemps marquée par les images puissantes nées sous la plume de Malaparte : la terreur des soldats allemands à la vue des chiens qui, dans les plaines d’Ukraine, sont tous des bombes incendiaires en puissance, les cris déchirant la nuit du pogrom de Jassy, ou encore cet élan, agonisant au beau milieu de la cour du palais présidentiel d’Helsinki. J’associe également ce grand texte à la sensation d’un gâchis immense. Je me souviens avoir été choqué de constater un nombre de coquilles tout bonnement hallucinant : des « u » devenus « n » (et inversement), des « I » transformés en « l »,… Jamais je n’avais vu un tel travail de gougnaffier. Ces erreurs sont typiques d’un travail fait à la va-vite, sans l’aune d’une correction. L’éditeur est pourtant censé être le garant de la qualité de ce qu’il publie, il est de son devoir de ne pas trahir l’auteur et son texte.

Si fort heureusement je n’ai plus rencontré de tels cas de manque de respect total envers les auteurs et leur public dans mes lectures ultérieures, j’ai pu en revanche constater qu’une telle approche est assez fréquente dans le monde de l’édition scientifique.

Les erreurs les plus fréquentes proviennent d’une mauvaise OCRisation et d’un rendu utilisant l’ASCII et non l’UTF-8. Lorsque les éditeurs scientifiques ont numérisé leurs « archives » aux alentours des années 2000, ils se sont probablement contentés de tout faire avaler par un scanner de masse. Au diable les diacritiques, les symboles mathématiques, les tables et autres erreurs classiques d’OCR. Un pdf pour l’image, un OCR à la hache pour le texte, le travail était fait.

Le problème est que la lecture scientifique est bien évidemment différente de la lecture de loisir, et que la mise à disposition en version électronique de revues académiques est normalement synonyme de plus-value, de gain de temps et d’efficacité. Un humain lisant sur écran un article disponible uniquement en pdf image (représentant par exemple 0,5 % des articles disponibles sur Science Direct, soit quand même environ 44 000 articles), ou en pdf texte issu d’une mauvaise OCRisation peut faire au pire une expérience désagréable : recherches « CTRL+F » infructueuses alors que le texte est bien présent dans le document, difficultés de réutiliser le contenu,…

En revanche dans de nombreuses disciplines scientifiques se développe la pratique de la fouille de contenu (Text and data mining ou content mining), une lecture computationnelle faite par des machines et permettant d’analyser des corpus de plusieurs dizaines, centaines, milliers de documents. Avant de pouvoir analyser les éventuels liens distants ou sous-jacents entre deux gènes, deux molécules, deux phénomènes, il faut permettre aux machines de comprendre ce qu’elles lisent, en leur apprenant par exemple à reconnaître automatiquement ces termes spécifiques, appelés entités nommées, quel que soit le contexte dans lequel ils sont employés. Encore avant de faire cela, il faut tout simplement apprendre à une machine à reconnaître la structure d’un document afin qu’elle puisse identifier si elle traite un titre, un paragraphe, une citation, … Un pdf issu d’OCRisation ne propose pas ce type de balisage. Tout est à plat, au même niveau (texte, notes de bas de page, et même en-tête et numéro de page), les fins de ligne sont encodées en dur. Même si plusieurs projets existent pour convertir du pdf en xml, le travail de pré-traitement est énorme et, surtout, redondant : les projets de recherche s’appuyant sur des corpus semblables devront faire les pré-traitements équivalents dans leur coin, puisqu’ils ne sont pas pris en charge par l’éditeur.

Certains éditeurs sûrement pétris de bonne volonté semblent penser que la solution miracle est de fournir du XML. Las, quand les tentatives se limitent à fournir le strict minimum, soit le corps entier d’un article entre deux balises <body></body> (voire entre des balises meta de l’en-tête), le résultat n’est pas tout à fait conforme aux attentes…

On pourrait imaginer qu’il s’agit là d’erreurs de jeunesse, du résultat de pratiques pionnières antérieures aux normes et standards à une époque où il fallait tout inventer. A la louche, cela représenterait quand même un peu plus de la moitié des articles scientifiques disponibles, ce qui n’est pas anodin.

Il est vrai que pour les contenus récents et nés numériques, les problèmes de structuration du texte sont moindres que pour ceux issus d’une numérisation, quand bien même il n’est pas satisfaisant de constater que plusieurs éditeurs, à commencer par Elsevier, préfèrent utiliser leurs DTD maison et propriétaire plutôt qu’un standard comme JATS. Mais cette solution ne règle pas tout. Même à l’heure actuelle, on constate de nombreux défauts qui empêchent les machines – et donc les chercheurs – d’exploiter de manière optimale les textes qu’ils analysent : utilisation « maison » de l’UTF-8 qui peut avoir des conséquences désastreuses dans certains champs disciplinaires, absence de considération pour les recommandations spécifiques W3C comme MathML, conversion d’images vectorielles en simple amas de pixels…

Comme Denoël avec Kaputt, bon nombre d’éditeurs scientifiques ne respectent pas les manuscrits des auteurs qui, eux, contiennent toute cette richesse. On a l’impression, pour des contenus assez anciens, que ces manuscrits originaux, parfois écrits en TeX ou LaTeX  ont été perdus et remplacés par de l’OCR bas de gamme (comme l’illustre  cet exemple parmi bien d’autres  – Oui, vous lisez « Typesetting by the editors in TeX » mais votre ordinateur lit « Typesetting by the editors in 1l9 »). Mais de la même façon qu’il est possible de trouver le texte du roman de Malaparte dans une meilleure qualité (en version poche par exemple), il est étonnamment possible de trouver de meilleures versions d’articles ailleurs que chez l’éditeur. Pour les contenus anciens, les agrégateurs semblent faire un meilleur travail que les éditeurs et l’OCRisation a manifestement été plus contrôlée. On comparera par exemple avec profit les résultats que renvoie la revue The Quarterly Journal of Economics chez OUP, EBSCO et JSTOR. Pour les contenus récents, les manuscrits d’auteurs disponibles sur les dépôts institutionnels ou thématiques (en premier lieu arxiv.org) seront probablement plus exploitables techniquement.

Quand bien même nous vivrions dans un monde idéal où l’activité de text et data mining serait possible de manière claire, transparente et sans licence particulière (je ne reviens pas sur la question brûlante du statut juridique de la fouille de contenu mais une excellente synthèse peut se trouver ici), les chercheurs resteraient confrontés à ce problème de qualité qui nuit à leurs travaux.

Jusqu’à présent, les bibliothécaires ont plutôt focalisé leur attention sur la qualité des métadonnées et nous savons tous que le chantier n’est pas mince. Pour autant, peut-être devrions-nous  également nous saisir de cette question de la qualité des données qui affecte aussi les outils que nous mettons à disposition de nos usagers. Par ailleurs, ne devrions-nous pas pousser pour que les outils de découverte puissent également proposer des outils facilitant le TDM, en sélectionnant par exemple les sources de meilleure qualité, en facilitant des téléchargements massifs (un peu à la Pubget)? Est-ce une direction que souhaitent ou peuvent prendre les fournisseurs d’outils de découverte qui deviendraient alors également des outils de text et data mining ?

Dans tous les cas, il semble assez évident qu’il ne faut pas prendre pour argent comptant les discours des éditeurs s’auto-proclamant champions de la qualité en s’interrogeant systématiquement sur la valeur qu’ils disent ajouter aux contenus soumis par les auteurs. Peut-être même que les éditeurs académiques portent atteinte au droit moral des auteurs lorsqu’ils publient un OCR pourri.

 

La version française de cet article est ici.


A few years ago I bought Malapartes’s Kaputt, translated into French by Juliette Bertrand and published by Denoël in 2006. As usual, I hardly remember the plot. However, I will remember for a long time the powerful images created by Malaparte : the German soldiers terrorised by the anti-tank Ukrainians dogs, the screams in the night during Jassy pogrom, the moose dying right in the middle of Helsinki’s presidential palace’s court.

I also associate this wonderful text with the feeling of a huge waste. I remember having been chocked by the amazingly high amount of typos : u instead of n (and vice-versa), l instead of I,… I had never seen such a poor work. These mistakes are typical. The publisher is however supposed to guarantee the quality of the published content, and he has not to betray the author and his text.

Although I have fortunately never encountered again such a lack of respect for the authors and their readership, I did notice that such a wrong behaviour happened quite often in scholarly publishing.
Most errors come from a bad OCR and an output in ASCII rather than in UTF-8. When academic publishers digitised their backfiles in the early 2000’s, they probably had all processed through a bulk scanner. To the hell with diacritics, math symbols, tables and other usual OCR mistakes. A pdf file for the image, a poor OCR output for the text, and the job is done.

Problem is that a scholar does not read the same way as a casual reader does. The electronic version of an article should enhance the global experience that would become swifter and more efficient. When a human being reads an article only available in image mode pdf (which represents roughly 0,5% of the articles on Science Direct, about 44 000 articles) or coming from a poor OCR, he might at its worst have a bad user experience : “CTRL+F” research that leads to nothing although the text is in the document, difficulties to reuse the content,…
In a lot of research fields text and data mining (or content mining) is expanding, letting machines analyse corpuses of several hundreds or thousands documents. Before being able to analyse probable underlying or distant bonds between two genes, two molecules, to phenomenons, machines have to be taught how to automatically recognise specific terms called named entities, according to the context. But even before that, they must simply be taught how to read a text so they can identify whether they deal with a title, a paragraph, or a citation. A pdf with an OCR layer does not have tags. Everything is at the same level: text, notes, and even headers and page numbers. End of lines are hard coded. Even if several projects aiming at converting pdf to xml do exist, the pre-processing tasks are huge but also redundant: research projects that rely on similar corpuses have to do the same pre-processing work since the publisher does not.

Some benevolent publishers seem to think that XML is the magic answer. Alas, when they only stick to the minimal requirements and put the whole article’s body between two <body></body> tags (and in some cases between header meta tags), we cannot say that the job is properly done…

So let’s say it is a youthful error coming from pioneering practices at a time when no standards existed and when everything had to be invented. Still, we are talking here about roughly half of the scholarly output ever, which is quite significant.

For born digital content, problems related to text structure are less present, even though it is not satisfactory that some publishers, starting with Elsevier, use their own proprietary DTD and not a standard like JATS. But this solution does not settle all. Even now, there are some flaws that prevent machines – hence scholars – from using at its best the texts they analyse : home made use of UTF-8, lack of consideration for W3C guidelines like MathML, conversion of vector images into a plain bulk of pixels…

Like Denoël for Kaputt, a lot of publishers do not respect the rich manuscripts sent by the authors. It is like they have lost these manuscripts, sometimes written with TeX or LaTeX, and used instead cheap OCR (as shown by this example, among others – Yes, you read « Typesetting by the editors in TeX » but your computer reads « Typesetting by the editors in 1l9 »). But as it is possible to find a better version of Malaparte’s text, it is surprisingly possible to find better version of articles outside of the publishers’ websites. For older content, aggregators seem to have done a better work than the publishers, and the OCR process was probably better monitored. A nice example is the Quarterly journal of economics which can be found on OUP, EBSO, and JSTOR platforms. For more recent content, the sources uploaded by the authors on institutional or subject repositories (like arxiv.org) are probably more reliable.
Did we live in an ideal world where text and data mining activities would be possible in a clearer and more transparent way, without any particular licence, scholars would still have to face with this quality issue which harms their work.

So far librarians are more focused on metadata quality issues, and we all know it is a big deal. But perhaps should we seize this data quality issue that also harms the tools we offer to our patrons. Shouldn’t we ask for instance that discovery tools include TDM tools showing first better quality sources or making bulk downloads easier (à la Pubget for instance) ? Is this a way vendors wish or can follow ?
Anyway, it seems pretty obvious that we should not take for granted the publisher’s statement presenting themselves as quality champions by systematically question the value they say they add to the contents provided by the authors. Maybe academic publishers even infringe the authors moral rights when they produce crappy OCR output.

This week took place Berlin11, the big international event about open access. I didn’t have the opportunity to be there, but I could follow some interesting discussions on twitter, especially about the Open Access Button, a tool that let you see in real time the impact of paywalls, these barriers that prevent researchers from accessing to content which their institution has not subscribed to. These walls exist, no doubt. But only on publishers websites. There are sideways that lead, ideally, to the same content. Green Open access is all about this, when a researcher decides to put one or several versions of his article on an institutional repository, whether local or national.

I don’t know how a researcher who enventually clicked on the Open Access button to say that he didn’t have access to the article he wanted got its reference. Google Scholar ? His library’s discovery tool ? A link to a reference cited by an article he had access to ? In any case, are we sure that the article he wanted to get did not exist in green open access and was simply not visible ?

A brief overlook of the literature seems to confirm that the visibility, well the lack of visibility, is a problem for institutional repositories. Google Scholar for instance doesn’t like Dublin Core, which is generally used by repositories that expose their metadata via OAI-PMH, and needs the metadata to be structured in another way in order to crawl efficiently the repositories. The IRs that stick to Googles Scholar needs get a significantly better indexing ratio (cf this 2012 article from Library Hi Tech)

Even if Google Scholar represents a high proportion of usages, it shouldn’t be the only way to improve green open access articles visibility. Another strategy for IR, followed for instance by ORBi, the Université de Liège repository, consists in letting discovery tools vendors index them (at least Primo, Summon andEDS offer this possibility). Metadata are agregated into the mega-indexes of this kind of tools. I imagine and hope (but I don’t really know) that there is some deduplication processes that create a link between every accessible version of an article, including the green open access one. These methods are interesting, but it is far from being enough I think. You are still stuck in a silo (Google Scholar or the library’s discovery tool), and not particularly where the researcher is (on Pubmed, on an article,…).

In fact, when you try to access to the open access version of an article, you are in front of the appropriate copy problem, that is supposed to be solved by the openurl standard. I feel that the best way to give visibility to the content of institutional repositories is to use tools that analyze metadata (title, author name, DOI,…) and find the matching reference in a IR. Dspace, one of the most popular IR software in the world, is OpenURL compliant. However, I can’t imagine a librarian who would tick in his institution’s knowledge base all the repositories he wants to make visible to his patrons. But I recently came across a Japanese project, quite old but still active, which seems to be a very interesting lead : AIRway (Access path to Institutional Resources via link resolvers). Airway « is aimed to achieve the navigation to open access documents collected in institutional repositories etc. by link resolvers ». AIRway target exists in several lik resolver interfaces (SFX, WorldCat Link Manager, TOUResolver, but not Serials Solutions one). Here are the system requirements :

  • Operate Institutional repository corresponding to OAI-PMH.
  • All items must be accompanying of the main body of the document. Or Somehow, the identification of the item with a main body of the document must be possible. (As example, state of specific element or « set », which is defined by OAI-PMH, etc.)
  • Availability of publisher version DOI or data such as ISSN, volume, starting page,…

These prerequisites seem pretty easy to meet, yet AIRway is only used  by seventeen IR (you can find Max Planck Society one, though). What prevents or has prevented IR from using this service? Is it only its lack of notoriety?

Imagine the power of such a tool  combined with a strong political will to promote  ZEN green open access ! Wouldn’t it be a great opportunity to ask ourselves about the legitimity of keeping subscriptions to scholarly journals that are more and more expensive and become a burden for academic libraries ?

Cette semaine a eu lieu Berlin11, grand raout international autour de l’open access. Je n’ai pas eu la chance d’y être mais ai pu suivre via twitter quelques échanges intéressants, notamment sur l’Open Access Button, un dispositif permettant de voir en temps réel l’impact des paywalls, ces murs auxquels se heurtent les chercheurs essayant d’accéder à du contenu auquel leur institution n’a pas souscrit. Ces murs existent de manière incontestable. Mais ils n’existent que sur les sites des éditeurs. Il y a également des chemins de traverse qui permettent, au moins idéalement, d’accéder au même contenu. C’est tout l’intérêt du green open access, suivant lequel un chercheur  décide de déposer une ou plusieurs versions d’un article dans un dépôt institutionnel, qu’il soit local ou national.

Je ne sais pas comment un chercheur qui a finalement cliqué sur l’Open Acces button pour signifier qu’il n’avait pas accès à l’article a eu accès à la référence de cet article. Google Scholar ? L’outil de découverte mis à disposition par sa bibliothèque universitaire ? Un lien vers une référence citée par un article auquel il avait accès ? Dans tous les cas, est-on sûr que l’article qu’il souhaitait obtenir n’existait pas en green open access, et qu’il n’était tout simplement pas visible ?

Un bref survol de la littérature semble confirmer que la visibilité, ou plutôt le manque de visibilité, est problématique pour les dépôts institutionnels. Google Scholar par exemple n’aime pas trop le Dublin Core, utilisé en règle générale par les dépôts qui exposent leur métadonnées via OAI-PMH, et a besoin de métadonnées structurées différemment afin de crawler efficacement les dépôts. Ceux qui se conforment aux besoins de Google Scholar obtiennent un taux d’indexation significativement plus important (voir cet article de 2012 de Library Hi Tech).  Mais si Google Scholar concentre une part importante des usages, il ne faut bien évidemment pas se cantonner à ce seul moyen pour donner plus de visibilité aux articles en green open access. Une autre stratégie, suivie par exemple par ORBi, le dépôt institutionnel de l’Université de Liège, consiste à se faire indexer par les fournisseurs d’outils de découverte (au moins Primo, Summon et EDS proposent cela). Il s’agit alors d’intégrer les métadonnées au sein des méga-index de ces outils. J’imagine et j’espère (mais je n’en sais rien) qu’il y a ensuite une sorte de dédoublonnage permettant de faire le lien entre un article et toutes les versions accessibles , y compris en green open access. Ces méthodes sont intéressantes mais loin d’être suffisante à mon sens. On reste dans un silo (Google Scholar d’un côté, l’outil de découverte de sa bibliothèque de l’autre), et pas forcément là où est le chercheur (sur Pubmed, sur un article,…).

En fait, le problème de l’accès à une version open access d’un article est exactement le même que celui de la copie appropriée, cher aux développeurs de la norme Openurl. La meilleure façon, à mon sens, de rendre visible le contenu de dépôts institutionnels est de passer par un outil qui, en analysant les métadonnées (titre, auteur, doi,…) d’un article auquel on souhaite accéder trouve la correspondance dans un dépôt institutionnel. Dspace, l’un des outils de création de dépôt institutionnel les plus utilisés au monde, est compatible avec la norme OpenURL. Toutefois, il semble fastidieux pour une institution de pointer dans sa base de connaissance locale tous les dépôts qu’elle veut rendre visibles à ses usagers. En revanche, je suis tombé tout récemment sur une initiative japonaise, assez ancienne mais toujours active, qui me semble être une piste extrêmement intéressante : AIRway (Access path to Institutional Resources via link resolvers). Airway est un service dont le but est de permettre l’accès aux documents présents dans les dépôts institutionnels via les résolveurs de lien. La cible AIRway est activable dans plusieurs résolveurs de lien (SFX, WorldCat Link Manager, TOUResolver, mais pas celui de Serials Solutions). Pour qu’un dépôt institutionnel puisse utiliser AIRway il faut :

  1. Qu’il puisse clairement distinguer les enregistrements proposant le texte intégral de ceux qui n’ont que des métadonnées bibliographiques
  2. Qu’il dispose dans ses métadonnées descriptives des éléments correspondant à la version finale de l’article publiée sur le site de l’éditeur (DOI, ISSN de la revue, n° de volume, pagination,…)
  3. Qu’il puisse être moissonné par OAI-PMH

Ces prérequis semblent être facilement obervés, pourtant AIRway n’est utilisé que par une grosse quinzaine de dépôt (parmi lesquels celui de la société Max Planck, quand même). Quels sont les obstacles qui conduisent ou ont conduit les établissements qui ont des dépôts institutionnels à ne pas utiliser ce service? Est-ce le simple manque de notoriété d’AIRway ?

Imaginez la puissance d’un tel outil largement adopté combiné avec une volonté politique forte de promotion d’un ZEN green open access ! Cela ne permettrait-il pas de véritablement rebattre les cartes et de se poser sérieusement la question de la légitimité de maintenir des abonnements pesant de plus en plus sur les budgets des bibliothèques universitaires et de recherche ?

La dernière conférence de l’ICOLC (International Coalition of Library Consortia) a été l’occasion de déplorer, une fois de plus malheureusement, la complaisance des éditeurs à s’abriter derrière l’argument de la hausse de la production scientifique internationale (+3 à +4 % par an en moyenne, voir notamment ce rapport de l’International Association of Scientific, Technical and Medical Publishers) pour justifier leurs perpétuelles hausses de tarifs.
Il est vrai que la hausse de contenu est le principal vecteur de croissance du revenu (et donc du cours en bourse pour les éditeurs côtés) dans la mesure où le nombre d’universités et d’organismes de recherche dans le monde est constant et que les marchés indien et chinois auront bientôt été « conquis ». J’aurais toutefois tendance à dire que ce n’est pas notre problème.
Pour continuer à profiter de cette hausse de la production sans susciter d’énormes tollés (ou pire, des désabonnements) de la part de bibliothèques prises à la gorge par les différentes coupes budgétaires, la stratégie actuelle des grands éditeurs semble s’orienter vers la création massive de revues en Gold Open Access (modèle auteur-payeur). Elsevier annonce ainsi la création d’une nouvelle revue en Gold OA toutes les deux semaines environ. L’investissement est minime, le risque business quasi nul (il suffit d’attendre les articles qui viennent tous seuls et non aller chercher les éventuels abonnés), le retour sur investissement confortable, le tout en donnant une image de chevalier blanc de la Science.
Bien évidemment cet investissement dans le Gold OA ne se fait pas au détriment des revues sur abonnement qui restent la principale source de revenus des éditeurs scientifiques. Ici la poule aux œufs d’or s’appelle les « cascade journals ». Il s’agit pour un éditeur de proposer plusieurs revues traitant du même sujet mais de niveau de prestige ou d’exigence différents. Ainsi un papier refusé par une revue de rang « A » peut être publiée dans une revue de rang « B » ou « C ». Le peer-reviewing a déjà été fait, l’auteur (et donc la valeur) est conservé au sein du porte-feuille, bref l’éditeur est content.
Il y a malgré tout fort à parier que cette inflation du nombre d’articles n’aille pas de pair avec l’augmentation globale de la qualité de ces articles. Combien d’articles font simplement état de la compétence de leur auteur, sans pour autant apporter des éléments neufs à leur champ disciplinaire ? Un indice pourrait être le nombre de citations, indice certes bien fruste par rapport à ce que pourrait apporter l’utilisation de description sémantique des relations citant-cité ou même par rapport à certains indicateurs altmetrics , mais qui a le mérite d’être facilement analysable par des outils efficaces, utilisés par les éditeurs et gratuits comme les api CrossRef. Et comme il semble y avoir une corrélation entre usage et nombre de citations (tant que PIRUS n’est pas répandu il sera malgré tout difficile de vérifier cette assertion) , ces articles jamais cités pourraient être très rarement vus, donc inutiles en tant que tels, donc à ne pas prendre en compte dans les estimations globales de coûts à l’article,…
Une brève revue de la littérature laisse penser qu’il n’y a pas eu beaucoup d’études sur ces articles jamais cités. J’ai bien trouvé ces quelques analyses portant principalement sur les articles dans le domaine médical  mais ça semble à peu près tout (amis bibliothécaires si vous avez d’autres références je les prendrai volontiers).
Du coup, prenant mon courage à deux mains et ma clé d’API crossref dans l’autre, je vais essayer de creuser cette question. Il suffit d’avoir une liste de DOIs et un script python codé avec les pieds. On va bien voir ce qu’il en sort, prochainement sur vos écrans.

C’est à Amsterdam, à quelques kilomètres à vol d’oiseau des sièges européens de mastodontes de l’édition scientifique – Elsevier, Wolters-Kluwer, Brill,… – que s’est tenue la session européenne 2010 de l’International Consortium Of Libraries Consortia. L’ICOLC est une structure informelle dont le rôle principal est de faire circuler l’information entre les différents consortia de bibliothèques afin de disposer au niveau local d’un niveau de connaissance du marché au moins égal à celui que détient un éditeur donné lors d’une négociation. Il est alors plus facile de tordre le cou à un des arguments préférés des éditeurs commerciaux qui consiste à dire lors d’une négociation « Mais vous disposez de bien meilleures conditions que le consortium du pays voisin ! ». Pour autant, dans l’idéal, il s’agit également de disposer de quelques coups d’avance par rapport à l’éditeur en disposant de données stratégiques qui ne pourront pas être évoquées ici (je reste par ailleurs volontairement vague sur la nature de ces données). Faire un compte rendu riche et intéressant des débats et échanges qui eurent lieu lors de cet événement sans pour autant dévoiler certains éléments clés relève donc un peu de l’exercice d’équilibrisme.

  • Business as usual

La crise économique internationale a été au centre des échanges de la première session. En guise d’écho au communiqué de janvier 2009 appelant les éditeurs à ne pas augmenter leurs prix entre 2009 et 2010, l’étude sur la hausse réelle des tarifs menée auprès de 61 consortia montre une réalité différente. Même si les consortia nord-américains ont en moyenne mieux réussi à contenir les hausses que leurs homologues européens et asiatiques, force est de constater que les acteurs de l’édition scientifique, qu’ils soient commerciaux ou à but non lucratif, n’ont pas grandement changé leurs habitudes d’avant la crise. Des hausses spectaculaires, supérieures à 15 %, ont même été constatées. Malheureusement, l’issue de la crise et la fin des coupes budgétaires semblent bien lointaines pour certains pays.
L’édition scientifique accrochée à ses modèles économiques et à une croissance à deux chiffres va bientôt être confrontée à une clientèle qui sera bien incapable de suivre cette marche forcée vers plus de services et plus de contenus. Plusieurs collègues des consortia ont fait remarquer l’inflation artificielle de la production scientifique et l’impossibilité actuelle de distinguer à un niveau macroscopique les articles qui font simplement état de la compétence de leurs auteurs avec des publication qui apportent véritablement des éléments nouveaux à la science. D’autres ont manifesté leur agacement face à certains services inadaptés à leur contexte local et pourtant facturés d’une manière ou d’une autre.
Face à ces critiques, les éditeurs Elsevier, Springer et Brill qui avaient été invités pour des sessions spécifiques tiennent un discours rebattu : « Nous oeuvrons dans l’intérêt de la science ». Seul Wiley-Blackwell a annoncé sa volonté de trouver un modèle économique qui encourage les bonnes publications et pas simplement plus de publications. Qu’en pensent les chercheurs ? Qu’en pensent leurs évaluateurs ?

  • La mutualisation, raison d’être des consortia

Le congrès a été l’occasion de montrer par ailleurs que les consortia de bibliothèques ne se limitent pas à l’acquisition de ressources électroniques mais cherchent également à mutualiser les moyens de leurs membres.
Au Royaume-Uni, JISC (Joint Information Systems Committee) s’est saisi depuis plusieurs années des questions de l’archivage des revues électroniques, soutenant des mouvements comme l’UK LOCKSS Alliance ou des projets comme PECAN, dont le but est de trouver la meilleure solution possible pour accéder au contenu souscrit après une annulation de contrat, ou PEPRS, qui vise la construction d’un registre visant à recenser les revues présentant une solution d’archivage pérenne. L’alliance des organismes de recherche allemands s’intéresse également aux questions des revues électroniques mais élargit sa réflexion aux documents numérisés par les bibliothèques.
Une autre collaboration possible réside dans la mise au point d’un système consortial de gestion des ressources électroniques (ERMS). La grande difficulté de tels projets et l’absence de solution véritablement aboutie de la part des fournisseurs font malheureusement que dans certains cas les projets ont vu leur ambition à la baisse (Danemark, Suède) ou ont été annulés (Pays-Bas).

Les membres des consortia ont beau tendre tous vers un objectif commun, la plus large diffusion des travaux de recherches à des conditions acceptables pour tous, il convient de reconnaître qu’ils sont parfois traversé de tensions internes. Les débats que l’on connaît en France – le consensus à tout prix est-il la meilleure solution, faut-il des négociateurs professionnels, comment gérer l’hétérogénéité des structures composant le consortium ?… – se retrouvent partout ailleurs, sans que les solutions trouvées chez les uns puissent s’appliquer telles quelles chez les autres.
Pour autant, contrairement à ce qu’a affirmé non sans malice le PDG de Springer, les consortia ont un avenir. Ce qu’on ne fait que percevoir, le Réseau Canadien de Documentation pour la Recherche l’a montré grâce une série d’indicateurs sur 10 ans, affirmant ainsi sa valeur ajoutée auprès de ses membres et de ses financeurs.

Suivre

Recevez les nouvelles publications par mail.