PDF (z OCR) - jak zaimportować skany?
- Jacek Kurzawa
- Posty: 9495
- Rejestracja: poniedziałek, 2 lutego 2004, 19:35
- UTM: DC30
- Specjalność: Cerambycidae
- profil zainteresowan: Muzyka informatyka makrofotografia
- Lokalizacja: Tomaszów Mazowiecki
- Podziękował(-a): 4 times
- Podziękowano: 1 time
- Kontakt:
PDF (z OCR) - jak zaimportować skany?
Siedzę nad skanem. "Abstract" jest pisany drobnymi literkami przez co wymyka się to procesowi OCR. Testuję. Proces OCR robię pokładowym OCRem w Adobe 8. I tu jest pewien szczegół.
Do Adobe trzeba najpierw "włożyć" plik graficzny (skanowana strona). Chociaż jest on jako BMP czyli bezstratnie to program juz na starcie kompresuje go. To co się do niego "włoży" to już nie jest jakości oryginału - jest skompresowane! Mozna to zmienić, ustawiając w Importuj opcje, ale zawsze jest jakaś minimalna kompresja. Potem OCR nie daje rady i wychodzą krzaczki.
Dlatego pdfa trzeba zrobić programem graficznym, np ACDSee który robiąc pdfa z obrazków nie kompresuje ich (bo jest programem graficznym). Takiego pdfa poddaję dopiero obróbce w Adobe i ... jest lepiej.
Wcześniej skany poddaje obróbce (automatyka, actions) w Photoshopie. Literki muszą być czarne, wyraźne. Operuję gamma, Autolevel (50%), zdejmuję kolor. Całość OCRuję w Adobe8 (OCR, Exact Image).
Do Adobe trzeba najpierw "włożyć" plik graficzny (skanowana strona). Chociaż jest on jako BMP czyli bezstratnie to program juz na starcie kompresuje go. To co się do niego "włoży" to już nie jest jakości oryginału - jest skompresowane! Mozna to zmienić, ustawiając w Importuj opcje, ale zawsze jest jakaś minimalna kompresja. Potem OCR nie daje rady i wychodzą krzaczki.
Dlatego pdfa trzeba zrobić programem graficznym, np ACDSee który robiąc pdfa z obrazków nie kompresuje ich (bo jest programem graficznym). Takiego pdfa poddaję dopiero obróbce w Adobe i ... jest lepiej.
Wcześniej skany poddaje obróbce (automatyka, actions) w Photoshopie. Literki muszą być czarne, wyraźne. Operuję gamma, Autolevel (50%), zdejmuję kolor. Całość OCRuję w Adobe8 (OCR, Exact Image).
- Grzegorz Banasiak
- Posty: 4470
- Rejestracja: poniedziałek, 2 lutego 2004, 23:27
- UTM: DC45
- Lokalizacja: Skierniewice
- Podziękował(-a): 3 times
- Podziękowano: 1 time
- Kontakt:
- Jacek Kurzawa
- Posty: 9495
- Rejestracja: poniedziałek, 2 lutego 2004, 19:35
- UTM: DC30
- Specjalność: Cerambycidae
- profil zainteresowan: Muzyka informatyka makrofotografia
- Lokalizacja: Tomaszów Mazowiecki
- Podziękował(-a): 4 times
- Podziękowano: 1 time
- Kontakt:
Re: Obróbka skanowanego tekstu
Tak, oczywiscie (skanowalem 300dpi) ale nie o tym pisalem. Podczas OCR wyszło, że Adobe pogarsza jakość skanu podczas importu i tego dotyczył post, żeby zwracać na to uwagę.
Z podnoszeniem dpi trzeba uwazac, bo przy 300dpi mam pliki 13MB ale przy 600dpi bylyby wiele większe, co z kolei stanowi problem "czasowo-objętosciowy".
Z podnoszeniem dpi trzeba uwazac, bo przy 300dpi mam pliki 13MB ale przy 600dpi bylyby wiele większe, co z kolei stanowi problem "czasowo-objętosciowy".
- Jacek Kurzawa
- Posty: 9495
- Rejestracja: poniedziałek, 2 lutego 2004, 19:35
- UTM: DC30
- Specjalność: Cerambycidae
- profil zainteresowan: Muzyka informatyka makrofotografia
- Lokalizacja: Tomaszów Mazowiecki
- Podziękował(-a): 4 times
- Podziękowano: 1 time
- Kontakt:
Re: Obróbka skanowanego tekstu
Zainstalowałem (ponownie) ABBY FineReader 10, bo z efektow OCR Adobe 8, z którego na codzień korzystam, nie byłem zadowolony w przypadku skanów (z pdfami radzi sobie bardzo dobrze, ale skany były robione na szybko i były błędy w tekście). No i zgodnie z oczekiwaniami - FineReader jest zdecydowanie lepszy. Błędów prawie wcale nie ma.
Najlepsze opcje zapisu:
rozmiar: zachowaj oryginalny obraz strony
tekst POD graficznym obrazem strony
Nie używac mieszanej zawartości rastrowej (literki się rozpływają)
Ustawienia niestandardowe - ja kw okienku (300 dpi i JPG 100%)
Najlepsze opcje zapisu:
rozmiar: zachowaj oryginalny obraz strony
tekst POD graficznym obrazem strony
Nie używac mieszanej zawartości rastrowej (literki się rozpływają)
Ustawienia niestandardowe - ja kw okienku (300 dpi i JPG 100%)