Conteúdo estruturado

Responsáveis pelo tema: Andy Byers, Alex Mendonça
Última atualização: 13 Janeiro 2025
Page: https://www.oajournals-toolkit.org/pt-pt/infraestrutura/conteudo-estruturado

O conteúdo estruturado tornou-se cada vez mais importante na comunicação acadêmica, pois fornece um formato padrão e legível por máquina para organização e troca de informações. O formato XML é amplamente utilizado por editores e se baseia na produção de artigos onde cada elemento é cuidadosamente marcado com base em um vocabulário padrão.

Conteúdos estruturados são informações ou dados organizados de forma previsível. Existem vários formatos de conteúdo estruturado, os mais notáveis são XML (Extensible Markup Language), JSON (JavaScript Object Notation) e YAML (YAML Ain’t Markup Language).

XML é amplamente utilizado na publicação de livros e periódicos acadêmicos. Ele torna o conteúdo acadêmico independente do layout, mais flexível e reutilizável para uma variedade de formatos (ex.: PDF, HTML, EPUB). Ele também oferece melhor capacidade de pesquisa, acessibilidade e preservação, além de permitir a mineração do texto. Acadêmicos das humanidades têm tradicionalmente usado XML TEI (Text Encoding Initiative), enquanto os editores usam cada vez mais o padrão NISO JATS (Journal Article Tag Suite) e sua extensão BITS (Book Interchange Tag Suite). O XML pode ser introduzido em diferentes estágios do processo de produção, com fluxos de trabalho XML-first, XML-last e XML-middle.

Os editores comerciais normalmente terceirizam a produção de XML ou usam software especializado, o que nem sempre é uma opção para periódicos de acesso aberto menores e com recursos limitados. Notavelmente, Kotahi é uma solução de código aberto que inclui recursos de exportação XML JATS. No entanto, notamos que são necessárias competências técnicas para a sua instalação.

XML na produção de periódicos

O formato XML usa marcação legível por máquina. A característica mais importante das tags XML é que a marcação é semântica: por exemplo, o título de um artigo será efetivamente marcado como título – não apenas como texto, como normalmente é feito em HTML. O XML também pode abranger outros metadados, incluindo autores, informações de financiamento, data de publicação e mais.

A vantagem de uma abordagem XML-first é que, desde o momento da submissão, os manuscritos podem ser marcados e editados num formato estruturado, reduzindo as frustrações que podem surgir ao fazer anotações em diferentes versões de documentos PDF ou Word. Documentos XML estruturados também são mais fáceis de analisar por meio de inteligência artificial e ferramentas de verificação automatizadas, com potencial economia de tempo em todo o fluxo de trabalho de publicação.

Posteriormente, quando um artigo for publicado, o uso de XML pode trazer benefícios em termos de acessibilidade e descoberta. Documentos estruturados podem ser facilmente indexados por mecanismos de busca, e sua análise automatizada pode ser realizada por pesquisadores. Documentos estruturados também são adequados para leitores de tela, facilitando a leitura para pessoas cegas, deficientes visuais ou com distúrbios de leitura.

Desvantagens do XML

Usar XML é mais complexo do que a publicação ‘básica’ de PDF ou HTML, e uma de suas principais desvantagens é a curva de aprendizado necessária para implementá-lo com eficácia. Este desafio afetará particularmente os editores menores que não possuem recursos técnicos internos nem orçamento para terceirizar a produção de XML. A outra desvantagem do XML é que sua aplicação é demorada, o que pode desencorajar ainda mais novos periódicos. Como resultado, muitos editores menores preferem trabalhar com formatos PDF ou HTML. Caso um periódico opte por seguir esta abordagem, é essencial tornar os artigos o mais acessíveis possível, de acordo com o tempo e recursos disponíveis.

Compartilhe este artigo

Baixe este artigo

Licença Creative Commons
Este trabalho está licenciado sob uma Licença Creative Commons Attribution 4.0 International.