PDF (z OCR) - jak zaimportować skany?

Makrofotografia, mikroskopy, optyka
Awatar użytkownika
Jacek Kurzawa
Posty: 9495
Rejestracja: poniedziałek, 2 lutego 2004, 19:35
UTM: DC30
Specjalność: Cerambycidae
profil zainteresowan: Muzyka informatyka makrofotografia
Lokalizacja: Tomaszów Mazowiecki
Podziękował(-a): 4 times
Podziękowano: 1 time
Kontakt:

PDF (z OCR) - jak zaimportować skany?

Post autor: Jacek Kurzawa »

Siedzę nad skanem. "Abstract" jest pisany drobnymi literkami przez co wymyka się to procesowi OCR. Testuję. Proces OCR robię pokładowym OCRem w Adobe 8. I tu jest pewien szczegół.

Do Adobe trzeba najpierw "włożyć" plik graficzny (skanowana strona). Chociaż jest on jako BMP czyli bezstratnie to program juz na starcie kompresuje go. To co się do niego "włoży" to już nie jest jakości oryginału - jest skompresowane! Mozna to zmienić, ustawiając w Importuj opcje, ale zawsze jest jakaś minimalna kompresja. Potem OCR nie daje rady i wychodzą krzaczki.

Dlatego pdfa trzeba zrobić programem graficznym, np ACDSee który robiąc pdfa z obrazków nie kompresuje ich (bo jest programem graficznym). Takiego pdfa poddaję dopiero obróbce w Adobe i ... jest lepiej.

Wcześniej skany poddaje obróbce (automatyka, actions) w Photoshopie. Literki muszą być czarne, wyraźne. Operuję gamma, Autolevel (50%), zdejmuję kolor. Całość OCRuję w Adobe8 (OCR, Exact Image).
Awatar użytkownika
Grzegorz Banasiak
Posty: 4470
Rejestracja: poniedziałek, 2 lutego 2004, 23:27
UTM: DC45
Lokalizacja: Skierniewice
Podziękował(-a): 3 times
Podziękowano: 1 time
Kontakt:

Re: Obróbka skanowanego tekstu

Post autor: Grzegorz Banasiak »

Zeskanuj w większej rozdzielczości i wtedy spróbuj.
Awatar użytkownika
Jacek Kurzawa
Posty: 9495
Rejestracja: poniedziałek, 2 lutego 2004, 19:35
UTM: DC30
Specjalność: Cerambycidae
profil zainteresowan: Muzyka informatyka makrofotografia
Lokalizacja: Tomaszów Mazowiecki
Podziękował(-a): 4 times
Podziękowano: 1 time
Kontakt:

Re: Obróbka skanowanego tekstu

Post autor: Jacek Kurzawa »

Tak, oczywiscie (skanowalem 300dpi) ale nie o tym pisalem. Podczas OCR wyszło, że Adobe pogarsza jakość skanu podczas importu i tego dotyczył post, żeby zwracać na to uwagę.

Z podnoszeniem dpi trzeba uwazac, bo przy 300dpi mam pliki 13MB ale przy 600dpi bylyby wiele większe, co z kolei stanowi problem "czasowo-objętosciowy".
Awatar użytkownika
Jacek Kurzawa
Posty: 9495
Rejestracja: poniedziałek, 2 lutego 2004, 19:35
UTM: DC30
Specjalność: Cerambycidae
profil zainteresowan: Muzyka informatyka makrofotografia
Lokalizacja: Tomaszów Mazowiecki
Podziękował(-a): 4 times
Podziękowano: 1 time
Kontakt:

Re: Obróbka skanowanego tekstu

Post autor: Jacek Kurzawa »

Zainstalowałem (ponownie) ABBY FineReader 10, bo z efektow OCR Adobe 8, z którego na codzień korzystam, nie byłem zadowolony w przypadku skanów (z pdfami radzi sobie bardzo dobrze, ale skany były robione na szybko i były błędy w tekście). No i zgodnie z oczekiwaniami - FineReader jest zdecydowanie lepszy. Błędów prawie wcale nie ma.

Najlepsze opcje zapisu:
rozmiar: zachowaj oryginalny obraz strony
tekst POD graficznym obrazem strony
Nie używac mieszanej zawartości rastrowej (literki się rozpływają)
Ustawienia niestandardowe - ja kw okienku (300 dpi i JPG 100%)
Załączniki
Zapisz do PDF.gif
Zapisz do PDF.gif (22.8 KiB) Przejrzano 1724 razy
ODPOWIEDZ

Wróć do „Techniki fotograficzne i mikroskopowe”