Przygotowanie plików źródłowych w programie XnViev i FineReader
Posted czw., 2011-02-10 23:28 by Paweł Rękar
Przygotowanie plików źródłowych to zadanie, którego celem jest stworzenie jak najlepszego materiału, który następnie zostanie poddany obróbce OCR (ang. Optical Character Recognition). Jakość rozpoznanego tekstu w znacznym stopniu zależy od jakości materiału wejściowego. Należy, więc zadbać o to, aby pliki źródłowe zostały przygotowane z należytą starannością oraz z uwzględnieniem wszystkich szczegółów, mających wpływ na jakość wynikowej publikacji cyfrowej. Ustalenie odpowiednich parametrów skanowania i przetwarzania jest czynnością żmudną i czasochłonną, ponieważ wymaga przeprowadzenia odpowiedniej ilości prób. Ponadto zmienność parametrów wejściowych materiałów bibliotecznych powoduje konieczność ciągłej kontroli i korygowania wypracowanych wcześniej parametrów digitalizacji.
Pierwszym etapem obróbki jest wstępne wyprostowanie tekstu na zeskanowanych stronach oraz konwersja plików do wersji jednobitowej. Do tej operacji został wybrany program FineReader 10, który podczas otwierania plików wyrównuje wiersze z tekstem i zapisuje do dowolnego formatu. Pliki wstępnie przygotowane przez FineReadera trafiają do progamu XnView, jest to w zasadzie przeglądarka plików, ale wyposażona w bardzo bogate funkcje do wsadowego przetwarzania plików.
Opis obróbki plików źródłowych w programie XnViev i FineReader
Celem obróbki jest uzyskanie wyprostowanych oraz jednakowo wykadrowanych pojedynczych stron czasopisma, które następnie zostaną przekazane do rozpoznania tekstu w programie ABBYY FineReader XIX.
- Plik przed obróbką:
- Pliki po obróbce
Do uzyskania takiego efektu wykorzystamy konwenter plików XnView:
Pliki wczytujemy do konwertera (1), ustawiamy lokalizację w której maja być zapisywane pliki wynikowe (2) oraz podajemy format zapisu (3)
Następnie przechodzimy do zakładki “przekształcenia” gdzie ustalamy rozmiar strony, wybieramy “Zmień rozmiar obszaru roboczego” (1), wpisujemy szerokość i wysokość (2) i od której krawędzi ma ścinać plik, lewa prawa lub środek (3).
Funkcje “Zmień rozmiar obszaru roboczego” możemy stosować wielokrotnie w tej samej akcji, co nam ułatwi dokładniejsze przycięcie pliku. Najpierw przycinamy plik na połowę. Gdy otrzymamy lewe i prawe pliki, wyrównujemy je ponownie w programie FineReader.
Po tych operacjach możemy już na gotowo przyciąć plik, czyli wracamy do konwertera i ustalamy wymiar na pojedynczy plik, funkcja “Zmień rozmiar obszaru roboczego”, przycinamy do tekstu, uwzględniając możliwość przesuwania się tekstu na stronie, po czym dodajemy białe tło.
- Paweł Rękar - blog
- Zaloguj się, by odpowiadać
- 11949 odsłon