STROJOVÉ UČENÍ V KNIHOVNĚ: VÝZVY, PROBLÉMY A PŘÍNOSY URČOVÁNÍ AUTORSTVÍ A DATACE: KORPUS ČESKÝCH AUTORŮ NA PŘELOMU 19. A 20. STOLETÍ

Digitálne humanitné vedy

Článek popisuje výzkum zaměřený na využití metod strojového učení pro určování autorství a datace českých textů z přelomu 19. a 20. století.  V rámci výzkumu byly vyvinuty specializované nástroje AuthorGuesser pro identifikaci autorství a DateGuesser pro odhad časového období vzniku textu. Výzkum pracoval s korpusem digitalizovaných textů primárně české prózy od vybraných autorů z Národní digitální knihovny. Klíčové fáze technického řešení zahrnovaly přípravu a zpracování dat, delexikalizaci pro zaměření na stylistické rysy a extrakci příznaků pomocí n-gramů. Pro určování autorství byl využit klasifikátor LinearSVC. V budoucnu se plánuje významné rozšíření datasetu pro
AuthorGuesser.

Ilustračné foto: pexels.com

Zdieľať: