(De temps en temps je prendrai la liberté de publier des posts bilingues français-anglais (globish) quand les questions que je tenterai d’aborder dépassent le cadre franco-français.Et puis c’est aussi  sans doute mon côté bling bling. La version française est juste après).

I have often heard my fellow librarians saying that academic publishers couldn’t care less about metadata and that they were unable to provide good quality and structured information about their content. This is partly true : most of them do not have  good enough MARC records (and almost none are able to give French libraries UNIMARC records). But this is mostly false : all publishers must have rich and structured metadata to enable a good discovery experience on their own platform. This doesn’t mean of course that these metadata are completely flawless, without any typos or information in the wrong field. Nevertheless, you virtually can do several things with basic article metadata, once you have cleaned them a bit : you can aggregate them and create KBART-style « master lists » of everything available on a publisher’s platform(like the lists KB+ provides) or on a pseudo-static package like backfiles, you can check how often a bunch of articles is cited using Crossref APIs, you can check whether there is a correlation between the number of open acces articles published in a hybrid journal and the evolution of the public list price, … (any other idea welcome).

The problem is that these metadata are often locked in the publisher’s platform and are only used in its sole purpose, which is a shame. Scientific articles’ metadata should be put under a CC0 or, at least, under a CC-BY licence and should be accessible programmatically. I would be very happy to hear any reason why all academic publishers are not already doing so. Academic institutions spend enough money on content to demand that stuff that enables to use this content be open and easily accessible. Fortunately, some publishers are willing to make the right choice and let everyone have access to articles’ metadata. There are many ways to do so : FTP, OAI-PMH, SPARQL-endpoint, sitemaps, APIs. Every protocol has its pros and its cons. The biggest issue with most of them is that you are not sure whether the metadata provided are synced with the metadata used on the publisher’s platform. Well, Rome wasn’t built in a day and it is a good start anyway.

I am trying to list all the publishers that expose their metadata. There is still a lot of work to do (I focused on the publishers we are currently working with for our ISTEX project), so help is welcome.

*****************************************************************

J’ai souvent entendu mes collègues bibliothécaires dire que les éditeurs se contrefichaient des métadonnées et qu’ils étaient incapables de fournir une description de leur contenu à la fois de bonne qualité et structurée. C’est en partie vrai : la grande majorité d’entre eux n’offre pas des notices MARC suffisamment bonnes (et presque aucun n’est capable de nous donner de l’UNIMARC). Mais c’est la plupart du temps faux : tous les éditeurs se doivent d’avoir des métadonnées riches et structurées afin d’offrir une bonne découverte sur leur propre plate-forme. Cela ne veut bien sûr pas dire que ces métadonnées sont immaculées, exemptes de coquilles ou d’information dans le mauvais champ. Malgré tout, il semble possible de faire plusieurs choses avec des métadonnées basiques d’articles, une fois nettoyées : on peut les agréger et créer des listes KBART de tout ce qui est accessible sur la plate-forme d’un éditeur (comme ce que fait KB+) ou dans un package d’archives qui est censé ne pas bouger, on peut voir le nombre de citations d’un ensemble d’articles grâce à l’API Crossref, on peut voir s’il y a une corrélation entre le nombre d’articles publiés en open access dans un journal hybride et l’évolution du prix public de celui-ci,…(toute autre idée est bienvenue)

Le problème est que ces métadonnées sont souvent verrouillées à l’intérieur des plates-formes d’éditeurs et utilisables que dans leur cadre propre, ce qui est honteux. Les métadonnées d’articles scientifiques doivent être mises sous une licence CC0, ou à la rigueur CC-BY et doivent être accessibles de manière scriptable. Je serais ravis d’entendre les raisons pour lesquelles tous les éditeurs scientifiques n’agissent pas encore de la sorte. Les institutions académiques dépensent suffisamment d’argent pour du contenu pour exiger que ce qui permet la découverte de ce contenu soit ouvert et aisément accessible. Heureusement, certains éditeurs ont fait le bon choix et laissent ouvert l’accès aux métadonnées d’articles. Il y a plusieurs moyens techniques de le faire : FTP, OAI-PMH, SPARQL Endpoint, sitemaps, APIs. Chaque protocole a ses avantages et ses inconvénients. Le problème le plus gênant avec la plupart d’entre eux est que l’on n’est jamais sûr que les métadonnées exposées sont synchronisées avec ce qui est effectivement sur la plate-forme de l’éditeur. Disons que c’est déjà un bon début.

Je suis en train d’essayer de lister tous les éditeurs qui exposent leur métadonnées. Il y a encore pas mal de boulot (je me suis concentré sur les éditeurs sélectionnés dans la première vague ISTEX). Toute bonne volonté est donc bienvenue.