Biblioteka cyfrowa - format djvu

Jacek Kurzawa

Zbliża się nowy format plików graficzno-tekstowych, doskonały do OCR i digitalizacji książek - format plików djvu. Rewelacja.
Przyniesie on pewnie wkrótce zmianę zapisu formatów zarówno cyfrowych jak i pdfów (te pewnie powoli odejdą do lamusa, pomimo iż na dzisiaj są bezkonkurencyjne).
http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php

Pliki graficzne są mniejsze niż pdfy, proces przekonwertowania książki z postaci fizycznej (drukowanej) do djvu zostanie zautomatyzowany, system tagów, słów kluczowych jest juz dopracowywany. Pliki można przeglądać przez przeglądarki DjVu, widzi je IrfanView.

Przeglądarki plików djvu:
- DjVu_Browser_Plugin
- DjView

DjVu_Browser_Plugin
http://www.instalki.pl/programy/downloa ... Plugin.php
http://www.programypc.pl/djvu;-;przegla ... ,1798.html
DjVuLibre+DjView-3.5.21+4.4
http://sourceforge.net/project/showfile ... e_id=78509

Więcej programów (!):
http://www.djvu.com.pl/download.php

Zastosowań formatu jest znacznie więcej np doskonale nadaje się on do map cyfrowych!
http://www.djvu.com.pl/galeria/maps/galeria_maps.php

--------
A na koniec, nieco odchodząc od tematu djvu, przedstawiam filmik, jak bibliotekarze pracują przy przekładaniu książek na pliki. Proces fotografowania:

http://www.youtube.com/watch?v=yjRKeHPRa2k

Znalezione na forum: http://forum.biblioteka20.pl/viewtopic.php?t=264 Przy okazji polecam to forum, jest wiele ciekawego o djvu i nie tylko.

Miłosz Mazur

W internecie już istnieją biblioteki z książkami w tym formacie, korzystałem z nich ale przyznam że nie spodziewałem się ile ma to możliwości i zalet

Świat idzie do przodu, za kilka lat pożegnamy się także z formatem DVD

Jacek Kurzawa

Testy djvu wypadly równie rewelacyjnie, jak jego pierwszy kontakt z formatem djvu.

Poniżej przedstawiam próbki (obejrzyjcie w powiekszeniu pliki 1 i 2). Do przeglądania pliku Djvu należy pobrać przeglądarkę.

1 - powiększenie fragmentu oryginału
2 - powiększenie pliku djvu
3 - Strona z tekstem - plik źródłowy jpg (fragment)
4 - wynikowy plik djvu

Rożnica: plik jpg ma objętość 818 kB (strona ksiązki, plik 1937x2717) a plik wynikowy ma tylko .... 17 kB !!!!! Ponadto - uwaga - to jest już tekst, który można przeszukiwać, zaznaczać i kopiować

)))) (konwersja odbywa się od razu z OCR-em w tle!; wybór języków jest duży)

Z grafiką (kolorowe tablice, fotki, jest podobnie

Jakośc jest 100% dobra a zysk w objętości znaczny.

Wniosek:

Wystarczy przekowertować pliki pdf na djvu i mamy znaczny zysk objetości i tekst w pracy zamiast obrazka.
Polecam wszystkim, szczególnie pdfy obrazkowe (takie, w ktorych są tylko skany z prac, gdzie nie mozna zaznaczyć tekstu) do przeróbki na djvu.

Na koniec dwie informacje - Bellamy skanowany zajmuje 177 MB (199 plikow stron) a Bellamy przekonwertowany na djvu juz tylko .... 18,6 MB! To chyba mowi samo za siebie.

Druga - w celu konwertowania wszelkich plików wystarczy pobrać ze strony producenta program DocumentExpress Enterprise - moduł główny, menadżer zadań, edytor profili (lub stąd: http://www.djvu.com.pl/download.php )

Grzegorz Banasiak

Owszem format djvu jest niezły, ale nie należy popadać w zachwyt.
Zawarte w formacie djvu pliki graficzne są kompresowane, a kompresja grafiki jest "stratna", cudów nie ma. Dlatego nic nie zastąpi papierowych wersji drukowanych na bazie bardzo dobrej jakości skanów, którego to rozwiązania jestem zwolennikiem.
Przy obecnej dostępności dobrej jakości plików PDF i szybkiego internetu - wielkość plików nie ma większego znaczenia, a pojemności dysków umożliwiają przechowywanie dzesiątek tysięcy książek. Nie wiem, czy ktoś z nas posiada ich więcej niż kilkaset ?
Czy będą one zajmować 80GB czy 8GB - nie ma większego znaczenia. Jestem natomiast przekonany, że całą tę literaturę każdy z nas posiada wyłącznie na dysku swojego komputera i drobna awaria może nas pozbawić całej tej "dobrości".

Dlatego właśnie wszystko co dla mnie istotne od razu drukuję na kolorowej laserówce i binduję. Ceny literatury są tak zawrotne, że zakup takiej drukarki zwraca się po wydrukowaniu dwóch porządnych książek.

Z całą pewnością jednak ten format jest ciekawą alternatywą plików PDF, na razie jednak należy uznać go za ciekawostkę niż ogólnie znany i obowiązujący format jakim jest PDF.

Jacek Kurzawa

Tak, ale nie dyskutujmy o wyższości papierowych prac nad plikami komputerowymi i odwrotnie bo to jest zupełnie inne zagadnienie. Ja też drukuję część prac.

Porozmawiajmy o djvu. Bibliotekarze uzywają tego do archiwizowania ksiąg. Te wielkie BIBLIOTEKI>>> w internecie bazują własnie na tym! Dlaczego się nie zachwycać tym, że coś jest o wiele lepsze niż to co mamy do tej pory?

Zawarte w formacie djvu pliki graficzne są kompresowane, a kompresja grafiki jest "stratna", cudów nie ma

Piszesz, że cudow nie ma - skąd wiesz, że kompresja jest stratna? Przygotujemy porownanie TIFF-a i djvu, ok?

Technologia firmy Lizardtech jest BARDZO nowoczesna >>> http://www.lizardtech.com/ polecam zajrzeć, czym się zajmują (m.in. serwery graficzne, bazodanowe, oracle pod mapy google

)

Czy będą one zajmować 80GB czy 8GB - nie ma większego znaczenia

Otóż ma ito duze znaczenie, jesli przesyłamy pliki w sieci. Poza tym jesli mamy pracowac na dyskach 100GB czy 2TG to tez ma znaczenie. A ilośc plików graficcznych i pdf przybywa w zastraszającym tempie.

Przetestujcie to

zresztą ... plików djvu zacznie przybywać i powoli bedziemy przyzwyczajać się do niego.

PS. Jak juz wcześniej pisałem, zamiast posiadać 199 plików jpg o objętości 177 MB możemy mieć plik 14,8 MB i to z tekstem (po procesie OCR). (nie pisałem wczesniej, że podczas konwersji możemy sobie wyeksportować pliki txt do osobnego folderu (jakby ktoś chcial się pobawić w odzyskiwanie tekstu do oddzielnych plików).

Książeczki przegląda się bardzo przyjemnie

Załączam dwa screeny.

Jacek Kurzawa

Zrobilem testy konwersji plików graficznych w graficzne... i wynik jest słaby. To pewnie kwestia ustawien, presetow. Widac, jak pracuje program, jest to w jego ustawieniach. PRG jakby dzieli na warstwy i potem obrabia kazdą z osobna. Mozna to poustawiac, powyłaczać, tylko ze wtedy go samej grafiki nie bedzie go warto uzywać.

Załaczam porownanie formatu djvu do jpg dla obrazka z tekstem.

Grzegorz Banasiak

Zawarte w formacie djvu pliki graficzne są kompresowane, a kompresja grafiki jest "stratna", cudów nie ma

Piszesz, że cudow nie ma - skąd wiesz, że kompresja jest stratna? Przygotujemy porownanie TIFF-a i djvu, ok? Technologia firmy Lizardtech jest BARDZO nowoczesna >>> http://www.lizardtech.com/ polecam zajrzeć, czym się zajmują (m.in. serwery graficzne, bazodanowe, oracle pod mapy google )

Jacek, ja nie mam zamiaru stawać po stronie któregokolwiek z formatów. Informatyka i programowanie to mój chleb codzienny od 20 lat i niejedno widziałem. Każde rozwiązanie ma swoje wady i zalety. Wszystkim jednak rządzi matematyka binarna, prosta i klarowna i naprawdę cudów tu nie ma.

Oczywiście, że nie dyskutujemy nad wyższością wersji drukowanej, bo jest ona oczywista. Z drugiej jednak strony korzystanie przy oznaczaniu z wersji komputerowych jest - przynajmniej dla mnie - wyjątkowo niewygodne mimo, że pozbyłem się już wszystkich komputerów stacjonarnych i pracuję na znacznie wygodniejszych 17" notebookach.
Dlatego właśnie w swoim poście wyraziłem opinię, że dla mnie osobiście format nie ma najmniejszego znaczenia. Liczą się tylko wersje papierowe, gdyż nie mam zamiaru ani ambicji tracić czasu na tworzenie komputerowych bibliotek plików dla samej chęci ich posiadania. Owszem, czasem ściągam prace, które mogą mi się potencjalnie kiedyś przydać i ich nie drukuję, ale zrzucam je na płyty i odkładam. Nawet gdyby nie udało się ich odczytać po latach, to żadnej straty nie będzie.

Antek Kwiczala †

Jest w zasadzie oczywiste, że jeśli przechowujemy tekst jako plik tekstowy (po konwersji OCR-em), zamiast pliku graficznego skompresowanego, to jakość jest nieporównanie lepsza, a zajmowana pamięć znacznie mniejsza. Należało się też liczyć z faktem, że:

testy konwersji plików graficznych w graficzne... i wynik jest słaby

bo, jak wspomniał Grzegorz, jakość obrazka zależy od stopnia kompresji - i tego się nie da przeskoczyć. Żeby uzyskać dobrą jakość zdjęcia, nie można go zbyt silnie skompresować - czyli będzie on zajmował dużo pamięci. Coś za coś.

Jacek Kurzawa

Zadałem sobie trud opisania tego novum po to zeby przyblizyc i pokazać Wam coś nowego, nie po to żeby przekonywac do tego!
Dla mnie zyski są ewidentne, ale kazdy ma prawo do swoich wyborów, tak więc jedni beda trzmac pliki BMP, inni JPG, jeszcze inni bedą drukować. Niektorzy przepisują pdfy zeby przetlumaczyć ..... róznie można. A częśc będzie używać formatu djvu.

Co zas do "oczywistego" faktu ze nalezalo się liczyć z utratą jakości na grafice to nie zgadzam się z tym. Nie uważam bowiem, że tylko TIFF BMP jest w stanie przekazac oryginał ( w zasadzie oryginalem jest RAW z matrycy) i nie da się zmniejszyc pliku graficznego bez utratu jakości. To jest tylko pozornie oczywiste, ale w swiecie cyfrowej techniki to raczej kwestia czasu, zeby cos uległo modernizacji.

Grzegorz Banasiak pisze:Liczą się tylko wersje papierowe, gdyż nie mam zamiaru ani ambicji tracić czasu na tworzenie komputerowych bibliotek plików dla samej chęci ich posiadania

Ja to robię inaczej: sciągam pliki do katalogu ENTOMOLOGIA ktorego zawartosc jest na bieząco indeksowana. Potem szybko wyszukuję wszelkie informacje (szybko w kilka sek na kilkaset GB). A wersje papierowe, gdy trzeba, też mi dobrze służą.
Tak wiec pliki elektroniczne służą mi jak baza danych, a komputer tak, jak do tego został stworzony - jako dodatkowe narzędzie w entomologii.

Grzegorz Banasiak

Jacek Kurzawa pisze:Zadałem sobie trud opisania tego novum po to zeby przyblizyc i pokazać Wam coś nowego, nie po to żeby przekonywac do tego!
Dla mnie zyski są ewidentne, ale kazdy ma prawo do swoich wyborów, tak więc jedni beda trzmac pliki BMP, inni JPG, jeszcze inni bedą drukować. Niektorzy przepisują pdfy zeby przetlumaczyć ..... róznie można. A częśc będzie używać formatu djvu.

Co zas do "oczywistego" faktu ze nalezalo się liczyć z utratą jakości na grafice to nie zgadzam się z tym. Nie uważam bowiem, że tylko TIFF BMP jest w stanie przekazac oryginał ( w zasadzie oryginalem jest RAW z matrycy) i nie da się zmniejszyc pliku graficznego bez utratu jakości. To jest tylko pozornie oczywiste, ale w swiecie cyfrowej techniki to raczej kwestia czasu, zeby cos uległo modernizacji.

Grzegorz Banasiak pisze:Liczą się tylko wersje papierowe, gdyż nie mam zamiaru ani ambicji tracić czasu na tworzenie komputerowych bibliotek plików dla samej chęci ich posiadania
Ja to robię inaczej: sciągam pliki do katalogu ENTOMOLOGIA ktorego zawartosc jest na bieząco indeksowana. Potem szybko wyszukuję wszelkie informacje (szybko w kilka sek na kilkaset GB). A wersje papierowe, gdy trzeba, też mi dobrze służą.
Tak wiec pliki elektroniczne służą mi jak baza danych, a komputer tak, jak do tego został stworzony - jako dodatkowe narzędzie w entomologii.

Nazwa typu pliku nie ma znaczenia. Liczy się algorytm kompresji. Pliki pozbawione kompresji oddają wierność tylko w takim stopniu jaki pozwolił na zapis kolorów. Jeśli zapiszesz je w 8 bitach, to jakość też nie będzie dobra (bo jest ich tylko 256). Nawet tutaj potrzebny jest jakiś kompromis, bo technika też stwarza bariery zarówno w rozdzielczości jak i możliwości odwzorowania kolorów.
W układzie zero-jedynkowym osiągnięto już wszystko, nic więcej nie da się zrobić. Poprawa kompresji możliwa jest tylko poprzez utratę jakości (pamiętaj, że ciągle mówimy o grafice - nie o tekście). W najbliższych latach nie widzę perspektywy zmiany zasad pracy komputerów na inny niż binarny... może kiedyś...
Djvu to kolejny standard z wielu, który jest ciekawy i zapewne będzie używany a pojawiające się pliki w sieci zmuszą nas do korzystania - z akcentem na słowo "zmuszą".

To, że z plików PDF nie można kopiować tekstu i wyszukiwać słów - jest nieprawdą, można to robić bez problemu od dawna. Służą do tego standardowe funkcje Acrobata - "Find" i "Save as Text". Można również zaznaczać tekst myszką i kopiować do schowka. Oczywiście wszystko zależy od sposobu przygotowania PDF'a - ale najważniejsze, że można i większość plików na to pozwala.

Jacek Kurzawa

Byc może masz rację z tym, że nie da się zmniejszyc objetosci pliku bez utraty jakości teraz i w przyszłości- przekonaleś mnie trochę.

To, że z plików PDF nie można kopiować tekstu i wyszukiwać słów - jest nieprawdą, można to robić bez problemu od dawna. Służą do tego standardowe funkcje Acrobata - "Find" i "Save as Text".

Oczywiście tak - w plikach pdf wykonanych prawidłowo! (nie ma sensu przetwarzać normalnego pdfa graficzno-tekstowego). Pisząc o odzyskiwaniu tekstu z pdf miałem na mysli takie pliki pdf, które zbudowane są z samej grafiki. Takich plików pojawilo się sporo w sieci. Ludzie skanują do jpg po czym robią z tego pdf-a. To plik pdf ale wlasciwie tylko pod wzgl. formatu, nie pod wzgl budowy. I wtedy mamy maly problem.
DjVu pozwala na szybkie przetworzenie takiego "pdfa" w plik graficzno-tekstowy.

Antek Kwiczala †

Ludzie skanują do jpg po czym robią z tego pdf-a.

Masz Jacku rację. Ja bym to nazwał "błędem metody". Tekst w pdf-ie ma być tekstem, a nie jego obrazkiem. Tekst daje większe możliwości - choćby wspomniane wyszukiwanie słów. Żadna wyszukiwarka nie znajdzie słowa pokazanego jako obrazek. Takie operacje robią jedynie OCR-y, ale dzięki specjalnym algorytmom.

Jacek Kalisiak

Jacku i Antku, możecie podać przykład jakiegoś większego pliku przygotowanego przez was na takiej właśnie drodze: oryginał - skany - OCR - pdf ???
Bo mówimy o teorii czy o praktyce?

Jacek Kurzawa

OCR naużywalem sie kilka lat temu przy okazji przepisywania ksiązek przy pisaniu prac mgr .. Przy czym ja skanowalem do OCR i potem do Worda, nie do pdfa. Nie praktykowałem przerobki np atlasu do pdfa.

W najblizszym czasie potestuję przeróbki pdfów na jpg-ach to formatu djvu.

Jacek Kurzawa

Zrobiłem mały test konwersji pliku pdf (na jpg) na format djvu, zajęło mi to 5 minut.
Obróbce poddałem przykładowy plik pdf http://www.zin.ru/ANIMALIA/COLEOPTERA/p ... aromia.pdf o objętości 2,29 MB, wykonany i umieszczony przez autorów pracy. Tak wykonali, taki jest. Tekstu nie ma, to same jpgi !

Użyłem defaultowego ustawienia w programie DocumentExpress. Otrzymałem plik 0,5 MB. Tekst jest odzyskany dobrze (jednak są błedy) natomiast z jakości obrazków bylem lekko niezadowolony (możecie sami sprawdzić wykonując konwersję sami). Zmieniłem preset z default na scanned 300dpi. Wynik był lepszy. Mozna potrenować ustawienia - to jest tylko bardzo szybki test.

Fotografie oglądane przy powiększeniu 100% nie wykazują róznic, przy powiekszeniu do 300% zauważamy, ze algorytm djvu powoduje powstawanie czarnych pól, obrazek jest nieco gorszy. Czy ta róznica jest na tyle duża, zeby się nad tym dluzej zastanawiać - załączam screeny porównań zrzut ekranu z Adobe Acrobat i DjVu Viewer).

Co otrzymujemy: zamiast pliku 2,5 MB (pdf) mamy 0,5 MB (djvu), dodatkowo mamy tekst w pliku djvu odzyskany bezblędnie i to cyrylica obok angielskiego.

Jacek Kalisiak

Być może różnica tkwi właśnie w tym, że program, którego używasz dobrze lub nawet bardzo dobrze oddaje strukturę dokumentu przy odzyskiwaniu tekstu. Moje doświadczenia przy OCR-owaniu sprowadzały się do niezadowolenia ze zrujnowania pierwotniej struktury strony. Tekst był OK, ale strona wyglądała zupełnie inaczej niż oryginał.
Ale może to efekt niedokofigurowania oprogramowania? O to głównie pytałem.

Jacek Kurzawa

Procedura pdf to pdf przy użyciu Adobe Acrobat + FineReader
Najpierw należy plik pdf otworzyć w Acrobat wyeksportować pliki graficzne na zewnątrz (cale strony, bo pracujemy na pliku, który został stworzony z samych jpg-ów) - ja wyeksportowałem do BMP).
Potem te strony trzeba poddać procesowi OCR w Abby FineReader, wybrać język (angielski), zaznaczyć obszary do rozpoznawania (lub nie). Uzyskany tekst program pozwala zapisać w rożnych formatach, ale.... wydawaloby się, że nie do pdfa. :sad:

I tu znalazłem rozwiązanie problemu (o które pytałeś Jacku w meilu).

W ABBY Fine Reader mamy funkcję "Kreator eksportu..."
Kolejność jest taka: najpierw rozpoznajemy wszystkie strony, standardowo (nie zaznaczamy niczego) i teraz przechodzimy do funkcji Kreator eksportu....

Tam wybieramy "Zapis do pliku", klikamy "Ustawienia formatów", w kolejnym oknie wybieramy zakładkę "PDF" i ustawiamy parametry (załączam zrzut ekranu). Dalej działa tak samo jak DocumentExpress (djvu) - powstaje pełen dokument w nienaruszonej strukturze z tekstem po OCR. Otrzymałem plik 1,57 MB. Pewnie to też kwestia ustawień by wypracować interesujący nas standard (dobra grafika, dobry tekst, mała objętość pliku).

Procesy:
Otwieramy plik pdf w Acrobat Reader (AR)....

extract do TIFF z pdf-a (AR)
konwersja TIFF do BMP (ACDSee)
otwarcie wszystkiego w Finereader
Rozpoznawanie tekstu ...process OCR)
Export do pliku pdf (!)

załacznik-screen.

To bardzo dobry, szybki i sprawdzony sposób na konwersję graficznych pdf-ów w pdf-y tekstowo-graficzne.

Grzegorz Banasiak

Jacek Kurzawa pisze:Byc może masz rację z tym, że nie da się zmniejszyc objetosci pliku bez utraty jakości teraz i w przyszłości- przekonaleś mnie trochę.

To, że z plików PDF nie można kopiować tekstu i wyszukiwać słów - jest nieprawdą, można to robić bez problemu od dawna. Służą do tego standardowe funkcje Acrobata - "Find" i "Save as Text".
Oczywiście tak - w plikach pdf wykonanych prawidłowo! (nie ma sensu przetwarzać normalnego pdfa graficzno-tekstowego). Pisząc o odzyskiwaniu tekstu z pdf miałem na mysli takie pliki pdf, które zbudowane są z samej grafiki. Takich plików pojawilo się sporo w sieci. Ludzie skanują do jpg po czym robią z tego pdf-a. To plik pdf ale wlasciwie tylko pod wzgl. formatu, nie pod wzgl budowy. I wtedy mamy maly problem.
DjVu pozwala na szybkie przetworzenie takiego "pdfa" w plik graficzno-tekstowy.

I tu masz rację, "źle" przygotowane PDF'y nie pozwalają na wyszukiwanie tekstu. Przyjrzałem się trochę formatowi djvu i w sumie nie wygląda to źle. Zobaczymy. Jak się pojawi więcej literatury w tym formacie będzie można wypowiedzieć się szczegółowiej. Jeśli pojawi się interesująca mnie literatura to i tak będę ją ściągał niezaleźnie od formatu czy jakości... zaciągam wszystko hurtem !

Krzyś · Post autor: **Krzyś** » środa, 18 marca 2009, 10:43

witam
A co powiecie o formacie JP2 ?

Post autor: **admin** » środa, 18 marca 2009, 11:10

A co masz na myśli? Rozwiń pytanie.

Krzyś · Post autor: **Krzyś** » środa, 18 marca 2009, 11:30

Chodzi o format JP2 lub JPEG 2, to format z którym często spotykam się w bibliotekach wirtualnych, ale nie każda przeglądarka go widzi. Jakość obrazka porównywalna jest z Tiffem, ale rozmiar znacznie mniejszy - około 10-20 % tiffa. Pytam czy ktoś wie coś więcej na ten temat, bo format wydaje się interesujący, tym bardziej, że pliki w nim zapisane zajmują mało miejsca, a jakość jest dość przyzwoita, nawet wydruki są zadowalające. Niestety nie prowadziłem szczegółowych testów i porównań czy tak faktycznie jest, ale skoro e-biblioteki zamieszczają pliki do pobrania w takim formacie tzn że jest to sensowna sprawa. Tym bardziej że istnieje wcale nie mała ilość darmowych przglądarek do tego formatu. Może więc ktoś (dobry informatyk) to przetestuje i oceni, czy pac jest wart pałaca ?

Antek Kwiczala †

Format JP2 to inaczej JPEG 2000. Należy się domyślać, że to pewna modyfikacja JPEG, ale nie znam różnic w algorytmach konwersji takich plików graficznych. Ja ten format spotykam głównie w plikach czarno-białych, stąd wykorzystywanie w bibliotekach, do zapisywania plików tekstowych. Można je otwierać programem IrfanView.

Krzyś · Post autor: **Krzyś** » środa, 18 marca 2009, 12:35

Nie tylko czarno białych. Ja spotkałem się głównie z grafiką kolorową - zdjęcia rysunki, skany stron czarno-białych ale kolorowe. Format jest dość często wykorzystywany do archivizowania książek.

Antek Kwiczala †

Nie tylko czarno białych

Oczywiście nie. Napisałem

głównie w plikach czarno-białych

Format jest uniwersalny, stosowany także dla obrazów kolorowych (jak format JPEG). Wiadomo, że format JPG daje silne zakłócenia dla kontrastowych obrazów, np czarnego tekstu na białym tle. Być może JP 2 daje mniejsze zakłócenia.

Jacek Kurzawa

No tak, tylko tu caly czas chodzi o plik graficzno-tekstowy czyli taki w ktorym mamy i grafikę (mapy bitowe np BMP TIFF JPG GIF itd) i tekst. Takimi plikami jest przede wszystkim pdf (Adobe) i djvu (Lizardtech), rowniez doc ppt, ale one sluża do innych zastosowań

Kompresja JPG to osobny temat, z formatem jpg2000 nie ma wiekszego problemu, obługują go chyba wszystkie programy graficzne. Format dobry jest jak kazdy inny, zależy do czego...
Format jpg2000 ma dwie zalety: skalowalność i lepsza jakośc przy tym samym stopniu kompresji. Więcej w wikipedii:
Formaty plików graficznych: http://pl.wikipedia.org/wiki/Formaty_pl ... raficznych

Na trzeciej pozycji mamy:
DjVu - format stworzony do przechowywania zeskanowanych dokumentów w formie elektronicznej. Co chyba mówi samo za siebie.

Jacek Kurzawa

Obecnie testuję różne procedury tworzenia elektronicznych książek, żeby wypracować jakiś wygodny standard. Najważniejsze to dobre skany, potem ich obróbka i przyjęcie optymalnego formatu dla grafiki i sposobu tworzenia plików.

Tworzenie pdf-a
1. Skanujemy wszystko jednakowo (300 dpi, TIFF)
2. Rozdzielamy na tablice, ktore pozostaną pliami graficznymi (wyzsza jakosc) i tekst do OCR.
2. W ABBY Fine Reader OCRujemy tylko pliki z tekstem i robimy z niego pdfa uzywając funkcji eksportuj ...
3. teraz otwieramy utworzony plik pdf w Adobe Reader i dodajemy przygowane pliki tablic (no właśnie zastanawiam się w jakim formacie).
4. Tworzymy ostateczny plik pdf.

Drugim, alternatywnym sposobem jest utworzenie pliku djvu.

1. jak wyżej - skanujemy
2. jw - dzielimy na tablice
3. otwieramy DocumentExpress i wykonujemy dwie procedury:
- poddajemy procesowi photo100dpi tablice kolorowe i tworzymy z nich pojedyncze pliki djvu (pojedyncze strony )
- poddajemy obróbce OCR strony tekstowe . Plikami wynikowymi będą pojedyncze pliki djvu
4. ostatni krok to połączenie pojedynczych stron djvu w jeden plik.

Gorzej gdy jest układ mieszany tekst z grafiką, ale to temat na kolejny post. Jak to zrobić.

Jacek Kurzawa

FineReader vs DocumentExpress - który lepszy?

Przetestowałem dwie procedury:
BMP > OCR > do pliku pdf (FineReader)
BMP > OCR > do pliku djvu (DocumentExpress)

Te same, przygotowane graficznie pliki: tekst oraz tablice kolorowe. W obu przypadkach oddzielnie obrabiałem pliki tekstowe OCRem i oddzielnie dokladałem tablice bez OCR dla uzyskania lepszej jakości tablic. OCR do pdfa był wykonany FineReader-em 7 a do djvu po prostu DocumentExpress-em.

Wynikowe pliki były w obu przypadkach dobre: plik djvu jest mniejszy niz pdf a robił się sporo szybciej, przy tym było mniej czynności.

Z pdf-em trzeba było się napracować: FineReader miał problemy z TIFF-ami wiec przekonwertowałem wszystko na BMP. OCR trwał dłużej niż w DocumentExpress (djvu). Po uzyskaniu pdf-a z tekstem ręcznie dołożyłem pliki tablic (funkcją Insert Page...) i zapisałem do końcowego pdf-a. Wynik zadowalający, tekst odzyskany, tablice ładne, ale roboty z tym było sporo. Tymczasem djvu po prostu tablice przekonwertował szybko i gładko z tekstem poradził sobie tak samo a złożenie jednego pliku djvu z wielu stron pojedynczych djvu przebiegło bardzo szybko (już bez OCR).

Który format wybierzemy to zależy od nas. Przy notorycznym braku czasu w naszych czasach format djvu wygrywa dość łatwo, bo:
przygotowanie plików i proces trwa krotko, program radzi sobie ze wszystkim bez problemów, pliki są mniejsze. Mniej problemów, zysk czasu i mniejszy plik.

Jacek Kurzawa

Podzielę się wynikiem doswiadczenia.
Do OCR przygotowałem dwa typy plików: BMP i TIFF z kompresją LZW.
Pytanie - który z typów plików zostanie rozczytany szybciej przez program DocumentExpress - BMP czy TIFF z kompresją LZW?

Wynik byl odwrotny do oczekiwanego.

BMP są plikami o duzo wiekszej objętości niż TIFF (LZW) (170 : 3 !!!!).
Rozczytanie 15 plikow BMP przebieglo w 42 sek podczas gdy rozczytanie TIFF az 72 sek!
Tak więc program musiał poswiecic sporo czasu na zdekodowanie kompresji LZW.

Obydwa pliki wynikowe djvu sa niemal identyczne pod wzgl jakości i rozmiaru, ten czas jest jednak ważny. Testowałem 15 plików a tomy Balthasara (zuki) mają od 400 do ponad 600 stron!

Na potrzeby OCR przygotowuję pliki BMP.

Jacek Kurzawa

Wykonałem test na 1 stronie Balthasara 1964 (żuki).
OCR do pdfa za pomocą Fine Readera oraz OCR programem DocumentExpress do pliku djvu. Opis takiego poprzedniego testu dwa posty wyżej! viewtopic.php?p=63666#63666

Załączam dwa wynikowe pliki - oceńcie sami.

FineReader ma problem ze znakiem samca i samiczki (chociaz jest procedura umożliwiającą "nauczenie" rozpoznawania przez program tych znaków!), robił znacznie dłużej a sam plik jest 3-krotnie większy.

Plik djvu jest bezbłędny.

Chciałbym zostać przy pdf-ach - siła przyzwyczajenia, ale przejście na djvu wydaje się tylko kwestią czasu....

Antek Kwiczala †

Plik pdf jest wyraźnie większy, ale wizualnie nieco bardziej kontrastowy. Ciekawe, co myśleć o tym, że oba znaki płci (♂,♀) są odczytywane jako dolary ($), czyżby dekodowanie z "podtekstem"?

.

cortez8591 · Post autor: **cortez8591** » czwartek, 9 lipca 2009, 12:59

Witam, jestem tu nowy i nie wiem czy w dobrym miejscu piszę no ale mimo wszystko spróbuję zadać tu swoje pytanie.

Mam za zadanie stworzyć małą cyfrową biblioteczkę, konkretnie archiwum pewnego tygodnika. Poskanowałem pierwszy numer do formatu TIFF 300dpi i przeleciałem całość używając LizardTech Document Express Enterprise 5.1. Otrzymałem wyjściowy plik djvu jednak gdy wyciągnąłem z niego samą warstwe OCR [enterprise zapisał mi do .txt] pokazało się wiele krzaków. Jednym z założeń ma być funkcjonująca obok wyszukiwarka treści działająca na zasadzie słowo kluczowe -> strona i nr wydania. Stąd dokładność OCR powinna być jak najwyższa. Mam również dostęp do ABBYY FineReader 9.0 Professional który dosyć dobrze radzi sobie z rozpoznawaniem tekstu. Teraz moje pytanie: jak mogę połączyć zalety FineReadera oraz formatu djvu ? Interesuje mnie jakakolwiek droga [najbardziej toporna i żmudna, nieautomatyczna] która zagwarantuje mi sukces.
Wierze że znajdą tu się osoby które robiły wcześniej takie rzeczy oraz podrzucą jakieś how-to, ew nakierują na artykuły dzięki którym poradzę sobie z wyżej przytoczonym zadaniem.

Z góry dzięki i pozdrawiam

Jacek Kurzawa

cortez8591 pisze:gdy wyciągnąłem z niego samą warstwe OCR [enterprise zapisał mi do .txt] pokazało się wiele krzaków

Spróbuj z opcjami przy rozpoznawaniu. Z tego co piszesz program stworzył dokument usredniony tzn co mu sie udalo rozczytać to zrobił, reszte zostawił z postaci grafiki.

cortez8591 pisze:jak mogę połączyć zalety FineReadera oraz formatu djvu ?

No własnie - proponuję zrobić tak:
1 - rozczytać FineReaderem skany bezbłędnie i stworzyć pdfa
2 - tego pdfa (po OCR czyli z tekstem!) poddać procesowi "pdf to djvu" w programie DocumentExpress Lizardtech.

Pisałem o tym własnie już wczesniej: viewtopic.php?p=63463#63463
(Zacznij od tego miejsca: W ABBY Fine Reader mamy funkcję "Kreator eksportu..." ...)

To wlasnie Kreator eksportu w ABBY FineReader daje nam możliwość OCR i eksportu tego do pdfa ! (czego wcale nie widać wprost, używając tego programu).

cortez8591

Witam znowu, tym razem troche z innej beczki. Otóż przeglądarki Lizarda nie wiedzieć czemu [zarówno w wersji 5 jak i 6, plugin do przeglądarki lub nie] nie mogą odczytać dokumentu djvu, a konkretnie jednej strony. Wersja 6 powoduje wywalanie się całej przeglądarki a 5 wyświetla tylko komunikat błędu. Co ciekawe błąd dotyczy tylko tej jednej konkretnej kartki. Próbowałem na wiele sposobów przetworzyć ją enterprisem jednak zawsze kończyło się na błędzie (w przeglądarce). Co jeszcze ciekawsze przeglądarka z djvulibre radzi sobie dobrze z dokumentem. Jakieś pomysły czym to może być spowodowane? Pod tym adresem jest owa strona: http://0dayshare.com/ScanImage07.jpg (pozwoliłem sobie na format jpg gdyż on również po przetworzeniu powoduje błędy, a wrzucanie i ściąganie 8mb tiff wydaje się być stratą czasu).

Aha i żeby było śmieszniej DocumentExpress Professional Editor też nie ma problemów z otwarciem djvu powstałego z wyżej wymienionego .jpg.

Polskie Forum Entomologiczne

Biblioteka cyfrowa - format djvu

Biblioteka cyfrowa - format djvu

Pierwsze testy formatu djvu

Konwersja pliku pdf do pliku djvu

Konwersja pliku pdf (tylko grafika) do pliku pełnego pdf

Format jpg2000

Porównanie OCR "do pdf" i "do djvu"