Свежие обсуждения
Удачный опыт

Как скопировать текст из djvu файла

1 2

Как все уже знают , я люблю вставлять в сообщения части статей из научно-популярных журналов,которые естественно хранятся в формате djvu.
Наличие ОСR слоя не решает проблему,т.к у него начисто убито форматирование,исправить которое невозможно (только вручную). Поэтому я задался вопросом ,как все это дело провернуть в автоматическом режиме, с минимальным приложением ручного труда.

Вопрос часто поднимается в интернете
http://www.askguru.ru/list.ghtml?ID=437038
http://www.tehnari.ru/f180/t45727/
Но никто так и не нашел простого и логичного решения (либо предлагается устанавливать кучу всяких громоздких программ,либо вообще результат неудовлетворительный.)

Вот мой способ
WinDjvuViev -печать -далее выбираем виртуальный принтер Microsoft Office Document Image Writer и страницы которые нам нужны-сохраняем в файл .mdi -открываем в Мicrosoft Office Document Imaging -сохраняем как .tiff .
А этот формат уже открываем в ABBYY FineReader 9.0 Professional Edition, распознавание-и вот нормальный текст с нормальным форматированием.

 

AZUS6: в ABBYY FineReader 9.0 Professional Edition
У него есть скрин-шот ридер, выделяем на экране интересующее и распознаём или в буфер обмена или в ворд, например.

 

А не проще экспортировать в .bmp или .jpg и распознать, сохранив потом в .doc

 

Это в случае если нужна одна или 2 страницы.И не в в .bmp или .jpg, а WinDjvuViev экспортирует в РNG(этот формат качественнее),НО ТОЛЬКО ПО ОДНОЙ СТРАНИЦЕ. разработчику есть над чем подумать.

Но в целом с многостраничным .tiff работать удобнее.

 

А можно я напишу, хоть вы и не меня спрашиваете, AZUS6?
Просто небольшое замечание. В некоторых дежавю-файлах (наверное в тех, где есть OCR, но не проверял, не уверен) активен пункт "Экспорт в текст" в меню Файл. Что позволяет получить вполне годный для копипасты текст. Одним щелчком. Но, как и говорил, не на всех файлах.
Всё, ухожу, ухожу..

 

FineReader 10 открывает djvu сам.

 

AZUS6: WinDjvuViev -печать...
Ставим FinePrint, печатаем на нем нужные страницы (или все) и сохраняем полученный результат в PNG.
Но если
Eugene.A: FineReader 10 открывает djvu сам
то вобще все упрощается.

JAS: активен пункт "Экспорт в текст" в меню Файл
Если это есть, то можно просто на самой страничке выделить нужный фрпагмент и скопировать, на как было сказано выше - с полной потерей форматирования (включая разбиение на абзацы).

 

Программа CuneiDjVu v1.4 (24,1 МБ) предназначена для создания распознанного текстового слоя (OCR) в DjVu-файлах
От сюда http://djvu-soft.narod.ru/soft/ прямая ссылка http://djvu-soft.narod.ru/scan/cuneidjvu.htm
Пробовал на журналах Радио получалось очень не плохо.

 

ABBYY FineReader распознает элементарно - что тут мутить

 

Вся соль DjVu в том, что "картинка" страницы и текст хранятся вместе. Распознавать несколько страниц подряд возникает, обычно, для написания рефератов/курсовых и т.д. Чаще требуется скопировать несколько абзацев. Тут проще скопировать с потерей форматирования и неправильными буквами, чем "просеивать" через дополнительные программы (FineReader).
А вот бы после FineReader запихнуть распознаный текст обратно в DjVu - было бы полезно!