STROJOVÉ UČENÍ V KNIHOVNĚ: VÝZVY, PROBLÉMY A PŘÍNOSY URČOVÁNÍ AUTORSTVÍ A DATACE: KORPUS ČESKÝCH AUTORŮ NA PŘELOMU 19. A 20. STOLETÍ

František Válek Jan Pokorný Lenka Maixnerová Michal Charypar Petr Plecháč

http://doi.org/10.52036/1335793X.2025.1.55-61

Článek popisuje výzkum zaměřený na využití metod strojového učení pro určování autorství a datace českých textů z přelomu 19. a 20. století. V rámci výzkumu byly vyvinuty specializované nástroje AuthorGuesser pro identifikaci autorství a DateGuesser pro odhad časového období vzniku textu. Výzkum pracoval s korpusem digitalizovaných textů primárně české prózy od vybraných autorů z Národní digitální knihovny. Klíčové fáze technického řešení zahrnovaly přípravu a zpracování dat, delexikalizaci pro zaměření na stylistické rysy a extrakci příznaků pomocí n-gramů. Pro určování autorství byl využit klasifikátor LinearSVC. V budoucnu se plánuje významné rozšíření datasetu pro
AuthorGuesser.

Ilustračné foto: pexels.com

STROJOVÉ UČENÍ V KNIHOVNĚ: VÝZVY, PROBLÉMY A PŘÍNOSY URČOVÁNÍ AUTORSTVÍ A DATACE: KORPUS ČESKÝCH AUTORŮ NA PŘELOMU 19. A 20. STOLETÍ

Zdieľať:

Číslo: 1/2025

Obsah čísla