STANDARDY PRO ZACHYCENÍ VÝSLEDKŮ ROZPOZNÁNÍ TEXTU

Digitalization

Článek se zaměřuje na standardy pro ukládání výsledků rozpoznání tištěného (OCR), popř. rukopisného (HTR) textu. Srovnává několik aktuálně používaných formátů na bázi značkovacího jazyka XML i JSON. Hlavní pozornost se soustředí na zachycení údajů o rozpoznaném jazyce, toku textu na stránce a mezi stránkami, včetně problematiky dělení slov na konci řádku.

 

 

ilustračné foto: pixabay.com

Share: