Tesseract

Szombaton odavoltam Vajdaságban Adán az Örvendj népem fesztiválon. Lacival utaztam. Megtartottam a műhelyet az evangelizációról, tanúságot tettem a mise után a színpadon, egyébként pedig beszélgettem, hallgattam, hogyan van az adai közösség.

Ma napközben fejfájás gyötört, de kiszenvedtem magamból a Mózes kurzus '99-es vázlatának korpusszá alakítását, párhuzamosítását. Egészen szép lett a párhuzamosítás. Remélem jól jön majd a fordítás alatt. Aztán összeállítottam a fordítónak, Andrisnak a projektet és kitaláltam, hogyan tudok egy 25Mb-nál nagyobb állományt elküldeni: 7z-ben feldarabolva. Halleluja!

A múlt héten egy kicsit ismerkedtem a tesseract optikai karakterfelismerő szoftverrel. Reméltem jó lesz nekem. Ma Erika beszkennelte a könyvet, amit kértem tőle. A könyvet persze a gerincénél szét kellett vágni, hogy a lapadagolóba bemenjen. Többoldalas TIFF-ben jött 1 bites szénmélységben (vagyis fekete-fehérben) 30 oldalanként egy állományban. Reménykedtem jó lesz... Aztán felraktam a tesseract-ot (3.0), én némi hezitálás után kiadtam a parancsot:

tesseract 20110606150706761.1-30.tif 1-30 -l hun 

Éééss megcsinálta: laponként szépen beolvasta. Végigjátszottam mind a 6 állománnyal majd a kapott TXT-ben egy kis RegExp-es bűvészkedéssel lecseréltem a szótöréseket/elválasztójeleket és a felesleges sorvégeket, majd átraktam az egészet ODT-be és az első oldalt átolvastam. Hurrá, egy nagyon bonyolultnak hitt dolog megvan és egészen jó lett a felismert szöveg minősége. Ennyi munkát simán megért, sőt többet is!

Szóval, köszönöm Jézus, hogy te is építetted a házat :-). Ajándékképp éltem meg ezt a könyvszkennelős-szövegfelismerős feladatot.

  • Jóbel