Материал взят с сайта
http://chemister.da.ru
Сканирование
Пока у меня не было большого количества сканеров, чтоб посоветовать какую-либо определенную модель сканера. Если вы хотите заниматся сканированием книг профессионально, рекомендуется приобрести т.н. книжные (библиотечные) сканеры, но стоят они около 20000 долларов. Некоторые люди снимают изображение с помощью цифровой фотокамеры - это заметно ускоряет процесс, но качество изображения зависит от мастерства снимающего и знания им фотоаппарата.
Сканируем страницы в любую программу для обработки изображений (например Adobe Photoshop) или в файл изображения. Рекомендуется сканировать в разрешении 300-600 dpi (ниже - хуже читается, выше - размер файла больше). Разрешение выбирается тем большее, чем более темной и потертой является бумага.
Сканировать рекомендуется в форматы .tif или .bmp. Следует учесть, что форматов .tif несколько, и среди них есть такие, которые не открываются DjvuSolo. Преобразовать из одного tif-формата в другой можно тем же Adobe Photoshop.
Рекомендуется преобразовывать в черно-белый формат сразу на этапе сканирования, так как сканер сможет более точно разделить границы текст-фон, чем любые редакторы в дальнейшем.
При сканировании удобно называть файлы 001, 002, 003 и т.д. (или для больших книг 0001, 0002 и т.д.) - это в дальнейшем облегчает объединение их в книгу и исключает путаницу. При сканировании разворотов можно называть файлы по номеру одной из страниц.
Преобразование pdf-файлов
Для преобразование pdf в tif используется Adobe Acrobat 5 или выше. В нем открывается pdf-файл и выбирается команда File -> Export -> Extract image as -> tiff files. Процесс преобразования довольно длительный. Полученные tif-файлы можно очистить от полос, если это требуется или сразу собирать из них djvu-книгу.
Для прямого преобразования pdf в djvu есть программа VirtualDjvuPrinter. Она устанавливает виртуальный принтер на который можно печатать в djvu-файл из любой программы. Для печати из Acrobat рекомендуется поставить галочку Print as image. К недостаткам программы относятся медлительность и глючность, поэтому этот способ нежелателен.
Обработка изображения
Обработку изображения с дефектами можно производить любым графическим редактором работающим с форматами tif и bmp. Я например пользуюсь Adobe Photoshop 7.
Рекомендуется, где это возможно, преобразовывать книги из полноцветной графики в bitmap (двухцветный, черно-белый) вид, кроме случаев, когда на странице необходимо сохранить цветной рисунок или серый неконтрастный рисунок с мелкими деталями. Это сильно уменьшает объем книги. В некоторых случаях перед преобразованием требуется изменить контрастность и удалить фон.
Рекомендуется удалять боковые и серединные черные полосы. За счет этих полос размер книги может возрости в 2-3 раза. Также желательно выровнять текст - это облегчает чтение и распознавание.
Рекомендуется разделять сдвоенные страницы и располагать их по порядку с сохранением соответсвия номера страницы в книге и DjvuPlugin'е. Это сильно облегчает поиск нужной страницы, хотя и несколько увеличивает книгу.
Рекомендуется сканировать страницу с названием или выходными данными книги. Не все записывают название книги со страниц сайта и очень помогает когда название есть внутри. Также очень полезно содержание книги, по нему хорошо искать необходимые страницы. В идеале хорошо было бы сделать содержание в виде гиперссылок на соответствующие страницы. Если желаете сохранить в файле оформление обложки книги, то рекомендуется помещать ее в конец, так как полноцветные страницы или темные открываются долго и человек может решить, что файл с книгой поврежден.
В Adobe Photoshop есть возможность автоматизировать повторяющиеся действия. Для этого открываете вкладку Действия (Action), создаете новый набор, затем создаете действие. После нажатия кнопки Запись Photoshop начинает запоминать все ваши действия выполняемые над рисунком (кроме уменьшения-увеличения). После выполнения всех необходимых действий нажимаете на кнопку с черным квадратом. Запись прекращается. Не рекомендуется в записываемые действия вносить удаления и обрезание, так как могут быть обрезаны части книги с текстом. Для использования записанного действия выбираем Файл > Автоматизировать > Группа. Выбираете действие, папку с еще необработанными изображениями, назначение - Сохранить и закрыть и нажимаете ОК.
Сбор книги в программе DjvuSolo или DjvuEditor
Запускаем программу DjvuSolo или DjvuEditor (из пакета Document Express).
Выбираем в меню File -> Open (или кликаем на иконку открывающейся желтой папки на панели инструментов). Выбираем файл-картинку первой страницы (если ее не видно, значит в нижнем выпадающем списке необходимо выбрать "All Supported Image Files"). Нажимаем "Открыть".
Выбираем в меню Edit -> Append Pages. Выбираем вторую страницу книги. Нажимаем "Открыть". И так можно собрать всю книгу. Для быстрого добавления всех страниц книги необходимо, чтобы названия файлов располагались в том же порядке, что и страницы (например называть их 0001, 0002, 0003 и т.д.) и находились в одной папке. Тогда после команды Append Pages выбираем последний файл списка и удерживая Shift кликаем на второй файл списка (первую страницу мы открыли ранее), после чего нажимаем "Открыть". При добавлении большого количества файлов создается впечатление, что программа зависла. Это происходит, так как она в этот момент использует большое количество оперативной памяти. Требуется переждать этот период (до исчезновения "часиков", на слабых машинах может продолжатся 1-2 часа). Длина командной строки для добавления файлов ограничена, поэтому если добавлять разом более 200-500 страниц может произойти сброс команды (тогда вместо ожидаемого курсора в виде часов остается стрелка). В этом случае нужно добавлять файлы группами по 100-200.
Выяснилось, что не все виды tif-файлов поддерживаются программой DjvuSolo, на некоторые она выдает ошибку Invalid G4/MMR Data, а при попытке сохранения в виде djvu программа закрывается из-за ошибки. Такие tif-файлы пересохраняют в Adobe Photoshop в виде несжатых tif-файлов и снова собирают в книгу.
После добавления всех страниц выбираем в меню File -> Encode As Djvu и в предложенном меню задаем имя конечного файла djvu. Затем в пявившемся окне указываем разрешение и источник файла. Ждем пока прогресс-бар не исчезнет (дойдет до 100%). Теперь у вас готовая книга в djvu-формате.
Некоторые недокументированные возможности и секреты:
Убрать фон можно не пользуясь другими графическими программами, кроме DjvuSolo. Но для этого надо немного извратится. Открыть цветную сканированную страницу в DjvuSolo, перевести в файл djvu. После этого включить режим скрытия фона и импортировать страницу в bmp-файл. Полученный bmp-файл уже не будет содержать фона. Из bmp-файлов вновь собирают книгу.
При сборке книги рекомендуется цветную страницу обложки делать последней, так как отображение полноцветных изображений в DjvuPlugin'e медленное и человек может подумать, что у него сбой или зависание плагина при открытии документа.
Программа DjvuEditor (она же Document Express Professional) позволяет также делать следующие действия, отсутствующие в DjvuSolo: поворачивать страницы (вручную каждую), проводить распознование на английском языке.
Подключение OCR
Рекомендуется сделать распознавание (OCR) в книге. Это значительно облегчает поиск страницы с необходимой страницей. Хотя при этом размер файла увеличивается в 1,5 раза.
Djvu-файл требуется разложить на tif-файлы. Это делается с помощью программы DjVuDecode. Для преобразования запускается командная строка, переходят в папку с программой DjVuDecode и пишут команду djvudecode имя_файла.djvu имя_файла.tif. При этом образуется один многостраничный tif-файл.
Распознование осуществляется программой ABBYY FineReader 7. Она умеет открывать многостраничные tif-файлы и дает frf-файлы подходящие для следующей стадии. После распознования ABBYY FineReader 7 закрывается с сохранением пакета.
Полученные при распозновании frf-файлы лежат там куда вы сохранили пакет. Они копируются в отдельную папку. В эту же папку помещают программу FRFGrab. Запускают командную строку и выполняют команду FRFGrab -g *.frf > book.txt. При этом получается файл book.txt.
Полученный book.txt присоединяют к исходному файлу djvu с помощью программы djvused. Для этого в командной строке выполняют следующую команду djvused -f book.txt имя_файла.djvu. Получается файл djvu с OCR.
Распознавание книг
Для электронной книги наилучшим форматом является все-таки doc-формат (Файлы Microsoft Word) с сохранением оформления и страниц оригинала, так как в тексте можно проводить полнотекстовый поиск и он меньше по размеру, но в связи с трудностью преобразования в этот формат из графики и используется djvu-формат как наиболее компактный из графических. Как текстовый можно использовать и pdf-формат, но pdf составленный из графических файлов лучше преобразовать в djvu. Дальнейшие рекомендации даются для djvu-книг.
Пороцесс распознавания - это преобразование djvu-книги в doc-файл. В процессе преобразования рекомендуется сохранять соответствия между номерами страниц оригинала и номерами страниц doc-файла получающегося при распозновании. Это позволит ссылатся на страницы оригинала используя распознанную книгу. В случае если вы хотите добавить свои замечания - лучше их вставить последней страницей.
Распознавание можно проводить программой ABBYY FineReader. При этом можно использовать пакеты полученные при подключении OCR к djvu-файлу. Просто после распознавания нужно сохранить результат в файл Microsoft Word.
Полученный doc-файл будет содержать большое количество ошибок. Их исправление - трудоемкий процесс, который в основном и является помехой для распознавания. Практически все формулы и схемы реакций придется перерисовывать. Формулы и схемы реакций я бы рекомендовал рисовать программой ChemSketch от ACDLabs, которая интегрируется с Word'ом. Это позволит тем кому необходимо отредактировать схемы в дальнейшем. У тех у кого нет ChemSketch формулы будут графическими файлами.