Skip to main content

OCR

Ankieta na temat standardów i formatów używanych w digitalizacji

Europejski projekt Succeed (http://succeed-project.eu) uruchomił internetową ankietę dotyczącą standardów i formatów wykorzystywanych w procesie digitalizacji. Bardzo prosimy o udział w tej ankiecie pod adresem: https://docs.google.com/forms/d/16qvPbAZYUVmYz1MbeCGVcfxy0UXksr3-v5QQ7h3uETE/viewform

Celem tej ankiety jest zebranie informacji na temat bieżących praktyk w kontekście plików master (plików wzorcowych), wersji prezentacyjnych, formatów metadanych, OCR, itp. Informacje te pomogą nam zdefiniować rekomendacje na poziomie europejskim w zakresie digitalizacji dokumentów tekstowych. Prosimy o wypełnienie ankiety i ewentualnie podania adresu e-mail w celu otrzymania informacji zwrotnej o wynikach: https://docs.google.com/forms/d/16qvPbAZYUVmYz1MbeCGVcfxy0UXksr3-v5QQ7h3uETE/viewform 

Prosimy o odpowiedź przed końcem września.

Konferencja projektu IMPACT - Digitalizacja i OCR

Zapraszamy do uczestnictwa w finalnej konferencji projektu IMPACT pod tytułem: “Digitalizacja i OCR: Lepiej, szybciej, taniej. Rozwiązania projektu IMPACT oraz przyszłe wyzwania”. Konferencja odbędzie się w dniach 24-25 października 2011 w Londynie. W ramach konferencji projekt IMPACT zaprezentuje końcowe rezultaty, wraz z wynikami badań w kontekście OCR i technik lingwistycznych.

Przygotowanie plików źródłowych w programie XnViev i FineReader

Przygotowanie plików źródłowych to zadanie, którego celem jest stworzenie jak najlepszego materiału, który następnie zostanie poddany obróbce OCR (ang. Optical Character Recognition). Jakość rozpoznanego tekstu w znacznym stopniu zależy od jakości materiału wejściowego. Należy, więc zadbać o to, aby pliki źródłowe zostały przygotowane z należytą starannością oraz z uwzględnieniem wszystkich szczegółów, mających wpływ na jakość wynikowej publikacji cyfrowej. Ustalenie odpowiednich parametrów skanowania i przetwarzania jest czynnością żmudną i czasochłonną, ponieważ wymaga przeprowadzenia odpowiedniej ilości prób. Ponadto zmienność parametrów wejściowych materiałów bibliotecznych powoduje konieczność ciągłej kontroli i korygowania wypracowanych wcześniej parametrów digitalizacji.