Conteúdos estruturados são informações ou dados organizados de forma previsível. Existem vários formatos de conteúdo estruturado, os mais notáveis são XML (Extensible Markup Language), JSON (JavaScript Object Notation) e YAML (YAML Ain’t Markup Language).
XML é amplamente utilizado na publicação de livros e periódicos acadêmicos. Ele torna o conteúdo acadêmico independente do layout, mais flexível e reutilizável para uma variedade de formatos (ex.: PDF, HTML, EPUB). Ele também oferece melhor capacidade de pesquisa, acessibilidade e preservação, além de permitir a mineração do texto. Acadêmicos das humanidades têm tradicionalmente usado XML TEI (Text Encoding Initiative), enquanto os editores usam cada vez mais o padrão NISO JATS (Journal Article Tag Suite) e sua extensão BITS (Book Interchange Tag Suite). O XML pode ser introduzido em diferentes estágios do processo de produção, com fluxos de trabalho XML-first, XML-last e XML-middle.
Os editores comerciais normalmente terceirizam a produção de XML ou usam software especializado, o que nem sempre é uma opção para periódicos de acesso aberto menores e com recursos limitados. Notavelmente, Kotahi é uma solução de código aberto que inclui recursos de exportação XML JATS. No entanto, notamos que são necessárias competências técnicas para a sua instalação.
XML na produção de periódicos
O formato XML usa marcação legível por máquina. A característica mais importante das tags XML é que a marcação é semântica: por exemplo, o título de um artigo será efetivamente marcado como título – não apenas como texto, como normalmente é feito em HTML. O XML também pode abranger outros metadados, incluindo autores, informações de financiamento, data de publicação e mais.
A vantagem de uma abordagem XML-first é que, desde o momento da submissão, os manuscritos podem ser marcados e editados num formato estruturado, reduzindo as frustrações que podem surgir ao fazer anotações em diferentes versões de documentos PDF ou Word. Documentos XML estruturados também são mais fáceis de analisar por meio de inteligência artificial e ferramentas de verificação automatizadas, com potencial economia de tempo em todo o fluxo de trabalho de publicação.
Posteriormente, quando um artigo for publicado, o uso de XML pode trazer benefícios em termos de acessibilidade e descoberta. Documentos estruturados podem ser facilmente indexados por mecanismos de busca, e sua análise automatizada pode ser realizada por pesquisadores. Documentos estruturados também são adequados para leitores de tela, facilitando a leitura para pessoas cegas, deficientes visuais ou com distúrbios de leitura.
Desvantagens do XML
Usar XML é mais complexo do que a publicação ‘básica’ de PDF ou HTML, e uma de suas principais desvantagens é a curva de aprendizado necessária para implementá-lo com eficácia. Este desafio afetará particularmente os editores menores que não possuem recursos técnicos internos nem orçamento para terceirizar a produção de XML. A outra desvantagem do XML é que sua aplicação é demorada, o que pode desencorajar ainda mais novos periódicos. Como resultado, muitos editores menores preferem trabalhar com formatos PDF ou HTML. Caso um periódico opte por seguir esta abordagem, é essencial tornar os artigos o mais acessíveis possível, de acordo com o tempo e recursos disponíveis.
- XML. (n.d.). Focus Area News.
- JSON. (n.d.). Introducing JSON.
- YAML. (n.d.). YAML.
- The University of Edinburgh. (2019). Support for XML-based publishing in OJS.
- NISO. (2019). ANSI/NISO Z39.96-2019, JATS: Journal Article Tag Suite, version 1.2.
- JATS, (n.d.). Book Interchange Tag Set: JATS Extension. National Center for Biotechnology Information (NCBI), U.S. National Library of Medicine.
- Kotahi. (n.d.). Features.
- Aries systems. (2020, November 12). The Benefits of an XML-First Publishing Workflow.
- Access Computing. (n.d.). Is XML accessible? University of Washington.
- Github. (n.d.). Scholarly HTML.