AUTOMATIZOVANÁ KONVERZE A OBOHACENÍ DAT Z DIGITÁLNÍCH KNIHOVEN DO STANDARDU TEI

Digitálne knižnice

Účel – Článek představuje výsledky spolupráce českých odborníků v oblasti knihovnictví a digitálních humanitních věd, který zefektivní další využití publikací z digitálních knihoven při primárním a sekundárním výzkumu nebo při trénování kvalitnějších velkých jazykových modelů: automatizovaný proces konverze publikací z digitálních knihoven do standardu TEI včetně obohacení jazykových dat.

Design/Přístup/Metody – Pomocí automatizovaného převodu metadat a obohacování textových dat z digitálních knihoven Kramerius je možné zpřístupnit bohaté kulturní a duchovní dědictví ve standardu TEI, který vyvíjí mezinárodní konsorcium programátorů, knihovních pracovníků a humanitně zaměřených vědců a pedagogů. Autor popisuje data a metadata dostupná díky Standardu Národní digitální knihovny pro jednotlivé publikace, možnosti jejich obohacení pomocí služeb pro zpracování přirozeného jazyka (UDPipe a NameTag) a jejich převod na odpovídající elementy ve standardu TEI. Zaměřuje se na problémy spojené zejména s formátem ALTO a na jejich řešení.

Výsledky – Ověřené postupy a pravidla pro generování validních dokumentů TEI z publikací digitálních knihoven, které byly implementované ve dvou samostatných, volně dostupných aplikacích: DL4DH TEI Converter (využívající systém Kramerius+) a Libri augmentati.

Originalita/Hodnota – Článek popisuje procesy používané při převodu metadat z formátu MODS a ALTO do standardu TEI, které se mohou aplikovat na všechny publikace z digitálních knihoven Kramerius. Díky rozpoznaným entitám v textech publikací je lze snadněji dohledat i z webové aplikace.

Limity – Kvalita výstupu (zejména lingvistická analýza textu) je závislá na vstupních datech (především kvalitě procesu OCR). Některé nedostatky se díky předzpracování vstupních údajů v procesu konverze daří eliminovat.

Klíčová slova – TEI; ALTO; počítačové zpracování přirozeného jazyka; digitální humanitní vědy.

Ilustračné foto: Pexels

Zdieľať: