Digitalizacija knjiga

 

Iako se milioni knjiga skeniraju i postavljaju na internet svake godine, ovo je težak i mukotrpan postupak.

Projekat IMPACT, što je skraćenica za Poboljšanje pristupa tekstu, pokušava da olakša ovaj postupak.

Direktorka projekta IMPACT Hildelis Balk je objasnila: „Problem sa pretvaranjem istorijskog dokumenta u mašinski čitljiv tekst je taj što je star – sve se razlikuje od modernog dokumenta, ima staru vrstu slova, stare reči i veoma težak prelom (raspored elementa na strani). Skenirani dokumenti su puni grešaka, jer se računari muče da čitaju stare tekstove sa čudnim izgledima, vrstom slova i pravopisom.”

Klemens Nojdeker, tehnički menadžer za evropske projekte pokazao nam je jedan primer: „Ovo je Principia Mathematica od Isaka Njutna. Pogledajte kako se mastilo sa suprotne stranice proviodi kroz papir, papir je iskrivljen a takođe možete videti da se ovde koristi i ovo dugačko 's', koje može lako da se pomeša sa 'f'." Istraživači iz Nacionalne biblioteke Holandije proveli su četiri godine u evropskom projektu poboljšanja softverskih alata za čitanje starih knjiga.

Hildelis Balk je rekla: „Poboljšali smo softver za poboljšanje slike, optičko prepoznavanje karaktera, naknadnu korekciju dokumenta i jezičku tehnologiju kako bismo ga učinili dostupnijim.“ To znanje je već integrisano u vodeći softver za digitalizaciju na tržištu – a rezultati su znatno poboljšani.

Hildelis Balk je zaključila: „Tekst koji nije u potpunosti digitalan je praktično nevidljiv. Svi su navikli da idu u pretraživač i traže reč, a ako je ne pronađu, ona u suštini nije tu za njih.”

 

Spisak svih vesti Spisak svih vesti