|
Как бы, не совсем по теме, но разговор об этом уже был... Сергей К приводил хорошую ссылку ( http://dstu2204.narod.ru/doc/djvu/djvu.htm ). Я скачал оттуда Document Express Enterprise with DjVu v5.1 build 946 (with Asian OCR) и поставил. Так вот, берём защищённый pdf-документ, и указываем программе переконвертировать его в DjVu... Прога для пакетного преобразования, по этому не ждём, пока загрузятся картинки... Можно указать сразу несколько файлов, выставив для каждого свои параметры преобразования... В этой проге встроенный конвертатор на основе Ghostscript (устанавливается вместе с прогой). Ещё в проге есть встроенный OCR, и она автоматом распознаёт текст с графикой и цвет, ч/б или градации серого. По этому, нет смысла конвертировать ч/б и цветные страницы отдельно, а новый слой распознанного текста (в том числе и русского) может быть найден поисковыми машинами - так сказать, поиск по содержимому... или, вообще, прикол - поиск текста на фотографии... Вообще то, OCR был уже в комерческой версии соло 3,1, но в этой проге он работает, даже, не спрашивая разрешения, хотя на скорости это не отразилось... Скорость работы, просто, потрясающая, не то что у соло... К тому же, я уже и не мечтал что те же pdf-ы или картинки можно конвертировать на моей слабенькой машине с разрешением 600 dpi... потолок был 450 для ч/б и не более 300 для цветных формата А4. В хелпе же сказано, что максимальный пиксельный размер оганичен цифрами 32768х32768... При точке 0,28мм это получается... 9-и метровый экран... каждая сторона... Хм... не ужели, я ошибся? Нужно будет проверить. На выходе получаем тот же документ, но в формате DjVu, естественно, меньшего размера... К стати, смотреть этот формат, наконец то, стало удобно в броузере, поставив последней версии плугин... Находим нужный текст, копируем его и вставляем куда нужно - в текстовый редактор или в MPLAB, например... Всё. Порадовало большое число настроек и возможность создания собственных профилей - фотографу есть место для экспериментов. Я, например, даже не понимаю некоторые выражения, типа "хроминансе"... Если бы спец по фото разобрался с прогой и проверил бы результат конвертирования на своём материалле, то, может, и определились бы, есть смысл конвертировать фото в DjVu или нет... К стати, по моему, формат jp2, в отличие от jpg, то же, использует вейвлетовое преобразование, как и DjVu... Ещё бы разобраться с Genuine Fractals от того же Лизарда, который идёт как плугин к фотошопу и предназначен для "...высококачественная компрессия графики..." |
|
|
2 Сергей К OCR встроенный, работает, на сколько я понял, на файнридеровском движке... если можно так выразиться. Распознавание производится одной командой при конвертировании , хотя и не одновременно с ним. Сначала конвертация, следующим шагом - распознавание. Это видно по логу. Правда, ни что не мешает распознать уже переконвертированный файл. Это опция. Её можно включить, задавая параметры конвертирования, или выключить. Если распознавание выключено, то создаётся обычный DjVu-файл 25-й версии. Если же включено, то сначала создаётся точно такой же файл, затем распознаётся и добавляется ещё один слой - текстовый. Визуально это не определишь. Нужно только посмотреть информацию о странице - если было распознавание, то появится ещё одна строка с характристиками текстового слоя. Естественно, размер распознанного файла больше, чем не распознанного. На сколько - зависит от количества текста. При открытии такого файла, извлечь текст можно только спец-средствами - есть какая то утилита, обеспечивающая поиск по тексту в файле DjVu стандартными средствами эксплорера (лежит в пакете). По этому я и говорил, что более удобным оказался последний плугин от Лизарда, который хорошо отображает файл в окне броузера и позволяет работать с ним как "соло", обеспечивая ещё и поиск по тексту с возможностью его копирования. Мне даже показалось, что Лизард собирается отдать роль DjVu-вьювера, именно, плугину для броузера... если уже не отдал - менюшки, вызываемые в окне плугина, имеют бОльшую функциональную навороченность, чем менюшки "соло 3.1" коммерческой версии. |
|