Свежие обсуждения
Публикации

Нашёл книгу

1 8

DWD, я сейчас поимел 3 разновидности этой программы:

1) Document_Express_Enterprise_5.1 (201 МБ)
Это. похоже, то, чем пользуетесь Вы?!

2) Последняя версия:
Document Express 7.5 Asian Enterprise (291 МБ)
Этот вариант разработана уже не LizardTech, а Caminova. Вприпрыжку посмотрел отзывы - там многовато глюков.

3) Document Express Enterprise with DjVu 5.1 build 946 (Light Edition) (18,9 МБ (RAR))
Это какой-то облегченный вариант. с параметрами:
Возможности (цитирую):
- огромное количество настроек.
- наличие виртуального DjVu-принтера, управляемого скриптами (!).
- наличие программы pdftodjvu.exe для прямой конверсии Pdf ->DjVu (с сохранением русского OCR и подменой отсутствующих русских шрифтов!).
Облегченная версия. Убрано: IRIS OCR, Asian
Размер файла: 18,9Mb

Хотел попробовать этот вариант - здесь, похоже, есть все нужное. Смущает лишь маленький размер – подозреваю, что исключили и распознавалку . Пришлось искать отмычку, а потом не хватило какого-то .NET. В общем, пока получился неудачный заход.

По этому, видимо, они и ввели выбор языка.
В упоминавшемся пакете их больше, чем нужно - сотня вариантов - от украинского с белорусским до суахили с курдским...

Видимо, это сильно раздуло размер. Кроме того (если я не ошибся), в дистрибутив забиты варианты для 64- и 32-битных систем.

Стал продумывать тестовый текст для определения качества распознавания и "завял" - надо проверять более десятка ситуаций (тип шрифта (Arial, Courier New или что-то в этом роде), кегль, характер (нормальный, наклонный), наклон строк и их искривление возле, фон и т.д.. корешка, смесь русского, английского и цифр). Пока для пробы я отсканировал 4 странички из разных англо-русских (и наоборот) словарей.

Сканировал с разрешением 300 dpi в Градациях серого (8 бит).
Настройки FineReader'а
= Язык распознавания: Русский и английский.
= Режим распознавания: Тщательный
= Использовать только встроенные эталоны.
= Установки редактирования изображений:
1/ Исправить искажение строк
2/ Устранить размытие
3/ Уменьшить шум
В таком виде страницы сохранил в файл "OCR_FR.djvu" (103 КБ) и положил сюда: http://yadi.sk/d/QY68V3XA5ox52
Предварительной обработки изображений и ручной коррекции распознанного текста я, конечно, не делал.

 

ВиНи: Я испробовал и FS, и IrfanViewer, и остановился на XnView.

Совпало! Как раз этой программой я пользусь уже несколько лет для просмотра картинок, видео и звука. До этого я работал с ACDSee.300, но в новых версиях ее испортили – перегрузили прорвой ненужного сне балласта и я перешел на XnView.
Пробовал и FastStone Image Viewer (видимл ее Вы имели ввиду под "FS"?!) – аналог ACDSee и XnView. Бесплатная, рксифицированная, есть интересные решения. Но почему-то не прижилась у меня (скорее всего из-за моей консервативности ).

Еще из Win-95 таскаю FotoEditor (в 98-й и ХР). Он без инсталляции, есть русифицированный вариант. Быстро открывается, прост до безобразия . Полезен, когда надо сохранить и состыковать несколько скриншотов. Возможности у него, конечно, очень скромные – сильно не хватает введения текста, когда нужны пометки к рисункам (делаю их в Paint, копирую и просто вставляю). Изредка требуется обвести часть рисунка карандашом – приходится лезть в ФотоШоп.
Собственно поэтому меня и заинтересовал IrfanViewer.

 

sprite: В таком виде страницы сохранил в файл "OCR_FR.djvu" (103 КБ) и положил сюда: http://yadi.sk/d/QY68V3XA5ox52

Качество распознавания на высоте.
Только сканировать нужно было с чуть меньшей яркостью и сохранять в ч/б.

По моему, мы увели тему в сторону...

 

DWD: Качество распознавания на высоте.
Только сканировать нужно было с чуть меньшей яркостью и сохранять в ч/б.

Я сознательно не вмешивался в настройки программ "по умолчанию". В руководстве к сканеру сказано, что он "умный" . Перед сканированием каждой страницы головка делает два коротких захода (по 1-1,5 см), предполагаю, чтобы определить уровень серого и расположиться в середине диапазона градаций яркости. На этом этапе я предпочитаю не вмешиваться, а пакетной обработкой в Фотошопе удаляю лишнюю серость фона, регулирую контрастность, иногда повышаю резкость и перевожу в Ч/Б.
Заметил, что при одном и том же разрешении лучше распознаются Серые, а не Черно-белые изображения. Наверно из-за того, что в ч/б пропадают части букв с яркостью выше серого, поскольку разделение на черное и белое производится по границе 50% яркости.
При сохранении скана сразу в ч/б часто появляются большие черные кляксы (например, возле корешка), порой заливающие текст. Интересно, что после загрузки в DjVu-редактор страницы в "Сером" и просмотре ее в режиме "Ч/Б" качество перевода из серого в ч/б получается удивительно высоким – для получения близкого к этому результата в Фотошопе приходится изрядно покувыркаться .
.
По моему, мы увели тему в сторону.
Согласен. С вопроса Graciano надо было бы открыть новую тему вроде "Работа с DjVu". Во всяком случае, для меня это обсуждение было очень полезным. За что отдельное Вам спасибо.

 

sprite: С вопроса Graciano надо было бы открыть новую тему вроде "Работа с DjVu"

Одобрям!

 
1 8