Свежие обсуждения
Ссылки

Как сделать DjVu

1 3 5

Сергей К
Document Express Professional этого не умеет, нужно Document Express Enterprise, который и весит больше
Но я думаю, что преобразование в промежуточный tiff дает лучшее качество, кроме того все равно нужно как нибудь ресайзить страницы, а лучше скан кромсатора с этой задачей ничто не справится.

Виктор Гелис
PDFEditor это Fixit PDFEditor? Если да, то каким образом можно снять OCR-слой? Я не смог найти этой возможности.

Detector
На сколько я знаю, Document Express Professional, которым я пользуюсь умеет распознавать только английские тексты.
Каким вы софтом пользуетесь для распознавания прямо в DJVU файлах?

 

МухаМёд: Document Express Professional, которым я пользуюсь умеет распознавать только английские тексты.
Совершенно верно, кириллицу он дает кракозябрами.

МухаМёд: Каким вы софтом пользуетесь для распознавания прямо в DJVU файлах?
Прямого распознавания никакая программа делать не может. Если вы много работаете с DJVU файлами, то могу предположить, что FineReader у вас в ходу. Суть работы в следующем:
- все tiff-ы (которые вы обработали в кромсаторе для перегона в DJVU) грузите в FineReader и распознаете в пакетном режиме, сохраняете пакет.
- болгарский товарищ Генчо облегчил нам жизнь, написав программу DjvuOCR, сейчас у неё графический интерфейс (раньше она была консольная). Показываете ей где лежит ваш пакет с распознанными tiff-ами, а она и сделает вам OCR-слой в DJVU файле.

Это коротко. В сети были все подробности, если не найдутся, то на диске сохранились инструкции, в случае нужды сброшу.

 

МухаМёд: Если да, то каким образом можно снять OCR-слой?

Да, это Foxit PDFEditor. Я курсором выделял страницу, прямоугольным выделением, после этого текст или другие объекты копируются через Ctrl+С или меню ПКМ. Далее перносил в новый PDF, полагаю и на страницу DJVU можно перенести, если они одинакового размера.
Можно через меню Edit - Select All. На стройках Editing Options можно определить выдление только текста, только картинок и т.п.

 

Понятно, тогда скачаю из сети 9 версию FineReader и буду пробовать.

 

МухаМёд: ...скачаю из сети 9 версию FineReader и буду пробовать.
Лучше поставить v.7 или v.8. Потому что DjvuOCR v.2.2 была написана именно для этих версий FineReader. Хотя если появились новые версии DjvuOCR, то вполне возможно они будут работоать и с FineReader v.9

 

МухаМёд: которым я пользуюсь умеет распознавать только английские тексты
и рус и укр есть. Может проще Enterprise скачать?

 

МухаМёд: ...нужно Document Express Enterprise, который и весит больше...

По моему, это самый удобный для Вашего случая способ...
Да, пакет этот большой, но у Вас и объём обрабатываемого материалла огромен.
Плюс ко всему, в пакете есть возможность выбора большого числа языков для OCR, включая кирилицу.
После установки пакета появится возможность конвертировать файлы из PDF в DjVu двумя способами - в самой проге в пакетном режиме или прямо из окна PDF-ридера с помощью виртуального принтера.
В последнем случае есть возможность выставить в опциях обрезку границ по содержимому, тогда он даже одну букву на странице сам обрежет так, что останется только эта буква.

Первый вариант (пакетный режим) делается с помощью встроенной в пакет программы "pdftodjvu.exe", которую вроде бы уже извлекли из пакета и её можно использовать как самостоятельную программу. Но этот вариант я не пробовал...

По крайней мере, при установленном пакете она работает как самостоятельная программа, правда с заданием опций чрез командную строку. Этим пользуюсь.

Так что, скачайте пакет, тем более, что есть облегчённые варианты без виртуального принтера или языковых баз (думаю, корейский или французский вам вряд ли понадобится... ).
Зарадите все свои файлы в пакетном режиме и оставите на ночь...

 

DWD: правда с заданием опций чрез командную строку
у меня с графическим интерфейсом (называется как-то WorkFollowMenager). Все выбирается птичками, можно выбрать даже целую папку с вложениями и т.д. Там задается список заданий, после чего нажимаем "пуск", сворачиваем и забываем, пока она сама все файлы не преобразует.

 

Правильно.
Но мне удобнее оказалось создать несколько команд с нужными опциями по качеству конвертирования и встроить их в меню Total Commander-а.
Теперь, при необходимости переконвертировать PDF-ку, становлюсь на неё и одним кликом даю команду превратить её в DjVu.
Так сказать, не отходя от кассы...

 

Я решил все таки не идти легким путем, нашел программу PDF Image Extraction Wizard, которая позволяет извлечь сканированную графику из pdf, в том же виде, в каком она туда была запихана и сохранить в тифф.
Профессиональный акробат графику извлекает хуже, с преобразованием разрешения картинки.

Как Document Express Enterprise преобразовывает pdf в djvu я не знаю, но думаю что качество будет хуже, а мне важно получить djvu с минимальными потерями в качестве, т.к. исходный материал pdf не идеального качества.