Как пользоваться прогой djvudecode?

realex · 23.05.2008, 23:50

Встал вопрос ребром - нужно часть книжек в формате djvu переконвертить в doc-формат. Закинул удочку в гугл и нашел искомое - djvudecode. Всё вроде просто - создаём многостраничный tiff и ... - дальше по тексту... Скачал, распаковал, инсталяшки нет, один ехе-файл, пробовал запустить - нифига...
Что я неправильно делаю?
Заранее благодарен.
Алексей.

Melori · 24.05.2008, 00:23

Для преобразования запускается командная строка, переходят в папку с программой DjVuDecode и пишут команду djvudecode имя_файла.djvu имя_файла.tif. При этом образуется один многостраничный tif-файл.

Инструкция по преобразованию книг

realex · 26.06.2008, 16:55

Нифига не понял... В архиве DjVuDecode есть файлы c.cmd, DjVuDecode.exe. Первый при запуске начинает что-то сканировать - бегут цифры рядом с расширением tiff. Потом окошко вообще пропадает...
DjVuDecode.exe только на доли секунд открывает окно и тоже пропадает...
Что я не так делаю?

Тогда подскажите - ведь DjVu открываются сразу в ABBYY FineReader и их можно сохранить в ворде, так зачем тогда переводить в tif? Меняется разрешение текста и картинок, что ли?

А войти в папку с прогой из командной строки у меня так и не получилось...

Ребята, ну ткните носом - что я не так делаю? Горю!

*Zhlobny Hmur* · 26.06.2008, 19:27

realex, все дело в том, что файнридер знает что такое тиф, но не знает дежавю. Поэтому требуется конвертация.

Выложи прогу+дежавюшный файл на рапиду, посмотрю, где там собака рылась...

mortu · 29.06.2008, 10:19

Цитата:


	все дело в том, что файнридер знает что такое тиф, но не знает дежавю.

В 9 - ке можно и дежавю распознавать.

В версию Abbyy FineReader 9.0.0.724 добавлена поддержка распознавания формата DjVu.

realex · 01.07.2008, 23:44

Zhlobny Hmur, да есть вариант другой - прога Djvu OCR 2.2 Всё получилось с первого раза.

Удачи.

23.05.2008, 23:50	#1
realex Постоялец Пол: Регистрация: 17.11.2005 Адрес: А зори здесь тихие... Сообщений: 329 Репутация: 133	Как пользоваться прогой djvudecode? Встал вопрос ребром - нужно часть книжек в формате djvu переконвертить в doc-формат. Закинул удочку в гугл и нашел искомое - djvudecode. Всё вроде просто - создаём многостраничный tiff и ... - дальше по тексту... Скачал, распаковал, инсталяшки нет, один ехе-файл, пробовал запустить - нифига... Что я неправильно делаю? Заранее благодарен. Алексей. __________________ XDA II (Himalaya); XDA III(Blue Angel); XDA EXEC(Universal); HTC Advantage X7501;

24.05.2008, 00:23	#2
Melori Старожил Пол: Регистрация: 04.01.2008 Сообщений: 1,452	Ответ: Как пользоваться прогой djvudecode? Для преобразования запускается командная строка, переходят в папку с программой DjVuDecode и пишут команду djvudecode имя_файла.djvu имя_файла.tif. При этом образуется один многостраничный tif-файл. Инструкция по преобразованию книг Материал взят с сайта http://chemister.da.ru Сканирование Пока у меня не было большого количества сканеров, чтоб посоветовать какую-либо определенную модель сканера. Если вы хотите заниматся сканированием книг профессионально, рекомендуется приобрести т.н. книжные (библиотечные) сканеры, но стоят они около 20000 долларов. Некоторые люди снимают изображение с помощью цифровой фотокамеры - это заметно ускоряет процесс, но качество изображения зависит от мастерства снимающего и знания им фотоаппарата. Сканируем страницы в любую программу для обработки изображений (например Adobe Photoshop) или в файл изображения. Рекомендуется сканировать в разрешении 300-600 dpi (ниже - хуже читается, выше - размер файла больше). Разрешение выбирается тем большее, чем более темной и потертой является бумага. Сканировать рекомендуется в форматы .tif или .bmp. Следует учесть, что форматов .tif несколько, и среди них есть такие, которые не открываются DjvuSolo. Преобразовать из одного tif-формата в другой можно тем же Adobe Photoshop. Рекомендуется преобразовывать в черно-белый формат сразу на этапе сканирования, так как сканер сможет более точно разделить границы текст-фон, чем любые редакторы в дальнейшем. При сканировании удобно называть файлы 001, 002, 003 и т.д. (или для больших книг 0001, 0002 и т.д.) - это в дальнейшем облегчает объединение их в книгу и исключает путаницу. При сканировании разворотов можно называть файлы по номеру одной из страниц. Преобразование pdf-файлов Для преобразование pdf в tif используется Adobe Acrobat 5 или выше. В нем открывается pdf-файл и выбирается команда File -> Export -> Extract image as -> tiff files. Процесс преобразования довольно длительный. Полученные tif-файлы можно очистить от полос, если это требуется или сразу собирать из них djvu-книгу. Для прямого преобразования pdf в djvu есть программа VirtualDjvuPrinter. Она устанавливает виртуальный принтер на который можно печатать в djvu-файл из любой программы. Для печати из Acrobat рекомендуется поставить галочку Print as image. К недостаткам программы относятся медлительность и глючность, поэтому этот способ нежелателен. Обработка изображения Обработку изображения с дефектами можно производить любым графическим редактором работающим с форматами tif и bmp. Я например пользуюсь Adobe Photoshop 7. Рекомендуется, где это возможно, преобразовывать книги из полноцветной графики в bitmap (двухцветный, черно-белый) вид, кроме случаев, когда на странице необходимо сохранить цветной рисунок или серый неконтрастный рисунок с мелкими деталями. Это сильно уменьшает объем книги. В некоторых случаях перед преобразованием требуется изменить контрастность и удалить фон. Рекомендуется удалять боковые и серединные черные полосы. За счет этих полос размер книги может возрости в 2-3 раза. Также желательно выровнять текст - это облегчает чтение и распознавание. Рекомендуется разделять сдвоенные страницы и располагать их по порядку с сохранением соответсвия номера страницы в книге и DjvuPlugin'е. Это сильно облегчает поиск нужной страницы, хотя и несколько увеличивает книгу. Рекомендуется сканировать страницу с названием или выходными данными книги. Не все записывают название книги со страниц сайта и очень помогает когда название есть внутри. Также очень полезно содержание книги, по нему хорошо искать необходимые страницы. В идеале хорошо было бы сделать содержание в виде гиперссылок на соответствующие страницы. Если желаете сохранить в файле оформление обложки книги, то рекомендуется помещать ее в конец, так как полноцветные страницы или темные открываются долго и человек может решить, что файл с книгой поврежден. В Adobe Photoshop есть возможность автоматизировать повторяющиеся действия. Для этого открываете вкладку Действия (Action), создаете новый набор, затем создаете действие. После нажатия кнопки Запись Photoshop начинает запоминать все ваши действия выполняемые над рисунком (кроме уменьшения-увеличения). После выполнения всех необходимых действий нажимаете на кнопку с черным квадратом. Запись прекращается. Не рекомендуется в записываемые действия вносить удаления и обрезание, так как могут быть обрезаны части книги с текстом. Для использования записанного действия выбираем Файл > Автоматизировать > Группа. Выбираете действие, папку с еще необработанными изображениями, назначение - Сохранить и закрыть и нажимаете ОК. Сбор книги в программе DjvuSolo или DjvuEditor Запускаем программу DjvuSolo или DjvuEditor (из пакета Document Express). Выбираем в меню File -> Open (или кликаем на иконку открывающейся желтой папки на панели инструментов). Выбираем файл-картинку первой страницы (если ее не видно, значит в нижнем выпадающем списке необходимо выбрать "All Supported Image Files"). Нажимаем "Открыть". Выбираем в меню Edit -> Append Pages. Выбираем вторую страницу книги. Нажимаем "Открыть". И так можно собрать всю книгу. Для быстрого добавления всех страниц книги необходимо, чтобы названия файлов располагались в том же порядке, что и страницы (например называть их 0001, 0002, 0003 и т.д.) и находились в одной папке. Тогда после команды Append Pages выбираем последний файл списка и удерживая Shift кликаем на второй файл списка (первую страницу мы открыли ранее), после чего нажимаем "Открыть". При добавлении большого количества файлов создается впечатление, что программа зависла. Это происходит, так как она в этот момент использует большое количество оперативной памяти. Требуется переждать этот период (до исчезновения "часиков", на слабых машинах может продолжатся 1-2 часа). Длина командной строки для добавления файлов ограничена, поэтому если добавлять разом более 200-500 страниц может произойти сброс команды (тогда вместо ожидаемого курсора в виде часов остается стрелка). В этом случае нужно добавлять файлы группами по 100-200. Выяснилось, что не все виды tif-файлов поддерживаются программой DjvuSolo, на некоторые она выдает ошибку Invalid G4/MMR Data, а при попытке сохранения в виде djvu программа закрывается из-за ошибки. Такие tif-файлы пересохраняют в Adobe Photoshop в виде несжатых tif-файлов и снова собирают в книгу. После добавления всех страниц выбираем в меню File -> Encode As Djvu и в предложенном меню задаем имя конечного файла djvu. Затем в пявившемся окне указываем разрешение и источник файла. Ждем пока прогресс-бар не исчезнет (дойдет до 100%). Теперь у вас готовая книга в djvu-формате. Некоторые недокументированные возможности и секреты: Убрать фон можно не пользуясь другими графическими программами, кроме DjvuSolo. Но для этого надо немного извратится. Открыть цветную сканированную страницу в DjvuSolo, перевести в файл djvu. После этого включить режим скрытия фона и импортировать страницу в bmp-файл. Полученный bmp-файл уже не будет содержать фона. Из bmp-файлов вновь собирают книгу. При сборке книги рекомендуется цветную страницу обложки делать последней, так как отображение полноцветных изображений в DjvuPlugin'e медленное и человек может подумать, что у него сбой или зависание плагина при открытии документа. Программа DjvuEditor (она же Document Express Professional) позволяет также делать следующие действия, отсутствующие в DjvuSolo: поворачивать страницы (вручную каждую), проводить распознование на английском языке. Подключение OCR Рекомендуется сделать распознавание (OCR) в книге. Это значительно облегчает поиск страницы с необходимой страницей. Хотя при этом размер файла увеличивается в 1,5 раза. Djvu-файл требуется разложить на tif-файлы. Это делается с помощью программы DjVuDecode. Для преобразования запускается командная строка, переходят в папку с программой DjVuDecode и пишут команду djvudecode имя_файла.djvu имя_файла.tif. При этом образуется один многостраничный tif-файл. Распознование осуществляется программой ABBYY FineReader 7. Она умеет открывать многостраничные tif-файлы и дает frf-файлы подходящие для следующей стадии. После распознования ABBYY FineReader 7 закрывается с сохранением пакета. Полученные при распозновании frf-файлы лежат там куда вы сохранили пакет. Они копируются в отдельную папку. В эту же папку помещают программу FRFGrab. Запускают командную строку и выполняют команду FRFGrab -g .frf > book.txt. При этом получается файл book.txt. Полученный book.txt присоединяют к исходному файлу djvu с помощью программы djvused. Для этого в командной строке выполняют следующую команду djvused -f book.txt имя_файла.djvu. Получается файл djvu с OCR. Распознавание книг Для электронной книги наилучшим форматом является все-таки doc-формат (Файлы Microsoft Word) с сохранением оформления и страниц оригинала, так как в тексте можно проводить полнотекстовый поиск и он меньше по размеру, но в связи с трудностью преобразования в этот формат из графики и используется djvu-формат как наиболее компактный из графических. Как текстовый можно использовать и pdf-формат, но pdf составленный из графических файлов лучше преобразовать в djvu. Дальнейшие рекомендации даются для djvu-книг. Пороцесс распознавания - это преобразование djvu-книги в doc-файл. В процессе преобразования рекомендуется сохранять соответствия между номерами страниц оригинала и номерами страниц doc-файла получающегося при распозновании. Это позволит ссылатся на страницы оригинала используя распознанную книгу. В случае если вы хотите добавить свои замечания - лучше их вставить последней страницей. Распознавание можно проводить программой ABBYY FineReader. При этом можно использовать пакеты полученные при подключении OCR к djvu-файлу. Просто после распознавания нужно сохранить результат в файл Microsoft Word. Полученный doc-файл будет содержать большое количество ошибок. Их исправление - трудоемкий процесс, который в основном и является помехой для распознавания. Практически все формулы и схемы реакций придется перерисовывать. Формулы и схемы реакций я бы рекомендовал рисовать программой ChemSketch от ACDLabs, которая интегрируется с Word'ом. Это позволит тем кому необходимо отредактировать схемы в дальнейшем. У тех у кого нет ChemSketch формулы будут графическими файлами. __________________ Удали хлам из своего компа \| Заблокируй рекламу \| Набор постов Последний раз редактировалось Melori; 24.05.2008 в 16:48..*

26.06.2008, 16:55	#3
realex Постоялец Пол: Регистрация: 17.11.2005 Адрес: А зори здесь тихие... Сообщений: 329 Репутация: 133	Нифига не понял... В архиве DjVuDecode есть файлы c.cmd, DjVuDecode.exe. Первый при запуске начинает что-то сканировать - бегут цифры рядом с расширением tiff. Потом окошко вообще пропадает... DjVuDecode.exe только на доли секунд открывает окно и тоже пропадает... Что я не так делаю? Тогда подскажите - ведь DjVu открываются сразу в ABBYY FineReader и их можно сохранить в ворде, так зачем тогда переводить в tif? Меняется разрешение текста и картинок, что ли? А войти в папку с прогой из командной строки у меня так и не получилось... Ребята, ну ткните носом - что я не так делаю? Горю! __________________ XDA II (Himalaya); XDA III(Blue Angel); XDA EXEC(Universal); HTC Advantage X7501; Последний раз редактировалось Nozorrog; 26.06.2008 в 19:17..

26.06.2008, 19:27	#4
Zhlobny Hmur Модератор Пол: Регистрация: 28.06.2005 Адрес: Siberia Сообщений: 6,062	Ответ: Как пользоваться прогой djvudecode? realex, все дело в том, что файнридер знает что такое тиф, но не знает дежавю. Поэтому требуется конвертация. Выложи прогу+дежавюшный файл на рапиду, посмотрю, где там собака рылась... __________________ Беда пришла откуда ее не ждали - наступило утро! i7 4770, 24Gb, 8Gb 1070Ti, X-Fi Fatal1ty, APC SUA1000, iiYama 514, TH-50PF11, Behringer MS20

01.07.2008, 23:44	#6
realex Постоялец Пол: Регистрация: 17.11.2005 Адрес: А зори здесь тихие... Сообщений: 329 Репутация: 133	Ответ: Как пользоваться прогой djvudecode? Zhlobny Hmur, да есть вариант другой - прога Djvu OCR 2.2 Всё получилось с первого раза. Удачи. __________________ XDA II (Himalaya); XDA III(Blue Angel); XDA EXEC(Universal); HTC Advantage X7501; Последний раз редактировалось Zhlobny Hmur; 02.07.2008 в 11:26..

Похожие темы
Тема	Автор	Раздел	Ответов	Последнее сообщение
ACDSee Pro 2 как пользоваться	METER	Школа Photoshop / Photoshop School	2	13.10.2012 12:21
Как пользоваться xB Browser`ом ?	puella	Архив	12	01.07.2012 13:15
Как пользоваться ЕМУЛЯТОРАМИ?	GgreenpowerP	Кодировки	24	20.03.2010 09:02
Как пользоваться эксплойтами.	1nterSE	Хакинг в глобальной сети WWW	2	18.03.2007 11:56
Outlook-как пользоваться	masterdoc	Архив	12	21.07.2006 15:08