Contenu structuré

Responsable du sujet: Andy Byers, Alex Mendonça
Dernière mise à jour: 6 octobre 2023
Page: https://www.oajournals-toolkit.org/fr/infrastructure-fr/contenu-structure

Le contenu structuré est devenu de plus en plus important dans la communication savante, car il fournit un format standard et lisible par machine pour organiser et échanger des informations. Le format XML est largement utilisé par les éditeurs et repose sur la production d’articles dont chaque élément est soigneusement étiqueté sur la base d’un vocabulaire standard.

Un contenu structuré est une information ou une donnée organisée de manière prévisible. Il existe différents formats de contenu structuré, les plus connus étant XML (Extensible Markup Language), JSON (JavaScript Object Notation) et YAML (YAML Ain’t Markup Language).

Le XML est largement utilisé dans l’édition de livres et de revues universitaires. Il rend le contenu scientifique indépendant de la mise en page, plus flexible et réutilisable pour une variété de formats (notamment PDF, HTML, ePub). Il permet également d’améliorer les possibilités de recherche, l’accessibilité et la conservation, ainsi que l’exploration de textes. Les spécialistes des sciences humaines utilisent traditionnellement le XML de la TEI (Text Encoding Initiative), tandis que les éditeurs ont de plus en plus recours à la norme NISO JATS (Journal Article Tag Suite) et à son extension BITS (Book Interchange Tag Suite). Le XML peut être introduit à différents stades du processus de production, avec des flux de travail XML-first, XML-last et XML-middle.

Les éditeurs commerciaux externalisent généralement la production de XML ou utilisent des logiciels spécialisés, ce qui n’est pas toujours envisageable pour les petites revues en accès ouvert disposant de fonds limités. Citons Kotahi qui est une solution Open Source incluant des fonctions d’exportation XML de JATS. Cependant, il est à noter que des compétences techniques sont nécessaires pour son installation.

XML in journal production

Le format XML utilise un balisage lisible par machine. La caractéristique la plus importante des balises XML est que le balisage est sémantique: par exemple, le titre d’un article sera effectivement balisé en tant que titre, et pas seulement en tant que texte comme c’est généralement le cas en HTML. XML peut également couvrir d’autres métadonnées, notamment les auteurs, les informations sur le financement et la date de publication, entre autres.

Le premier avantage d’une approche XML est que, dès la soumission, les manuscrits peuvent être étiquetés et édités dans un format structuré, réduisant ainsi les frustrations qui peuvent survenir lors de l’annotation de différentes versions de documents PDF ou Word. Les documents XML structurés sont également plus faciles à analyser grâce à l’intelligence artificielle et aux outils de vérification automatisés, ce qui permet de gagner du temps tout au long du processus de publication.

Plus tard, lors de la publication d’un article, l’utilisation de XML peut présenter des avantages en termes d’accessibilité et de découvrabilité. Les documents structurés peuvent être facilement indexés par les moteurs de recherche et leur analyse automatisée peut être envisagée par les chercheurs. Les documents structurés sont également bien adaptés aux lecteurs d’écran, ce qui facilite la tâche des personnes aveugles, malvoyantes ou souffrant de troubles de la lecture.

Inconvénients de XML

L’utilisation du XML est plus complexe que la publication PDF ou HTML de base, et l’un de ses principaux inconvénients est la courbe d’apprentissage nécessaire pour le mettre en œuvre efficacement. Ce défi affectera particulièrement les petits éditeurs qui ne disposent pas de ressources techniques en interne ni du budget nécessaire pour externaliser la production XML. L’autre inconvénient du XML est que son application prend du temps, ce qui pourrait décourager davantage les nouvelles revues. Par conséquent, de nombreux petits éditeurs préfèrent travailler avec les formats PDF ou HTML. Si une revue choisit cette approche, il est essentiel de rendre les articles aussi accessibles que possible en fonction du temps et des ressources disponibles.