Или положим, есть многостраничный PDF скан книги (с поиском по строкам). Весь разворот (2 странички) на одном листе. Но по краям остаются большие и некрасивые черные поля - тень от обложки и т.д.
Как эту лишние куски убрать? И отцентрировать страницы, если они были отсканены немного неровно и под углом. Опять же, чтобы сохранился поиск по документу.

Пользуюсь самым примитивным сканером, FineReader и АкробатРидер. Сканирую в многостраничный PDF.
Сложность еще в том, что книгу надо отсканить и отдать хозяину довольно быстро. Т.е сразу поштучно медитативно обрабатывать каждую страницу из 600 не вариант. Нужно сначала сосканировать все (Какой прогой и в какой формат?) А потом уже заниматься доведением до ума - убирать поля, выравнивать странички...

Подозреваю, что существует для этого какая-то специальная прога, в сети вижу много очень аккуратных пдф-книг.
Но как?

Пример скрина странички из скана в ПДФ:


@темы: Поиск ПО, Windows 7

Комментарии
29.01.2014 в 14:27

blah-blah-blah
*Fifi*, так уже есть PDF или вы только собираетесь сканировать?
если собираетесь, то тащем-то не обязательно всегда сканировать всю площадь, можно выбрать область сканирования
у сканеров всегда есть обозначение верхнего левого угла, нужно книгу максимально ровно туда уложить, сделать предпросмотр, выделить нужную область и впоследствии сканировать именно её

это избавит вас от чёрных полей
кстати, почему они у вас чёрные? вы сканируете с открытой крышкой?

finereader выравнивает полученные изображение сам, там есть такая опция

если у вас на выходе PDF - зачем вам вообще fine reader? он нужен, если вы хотите получить редактируемый текст
а если вы хотите текст распознавать, то вам должно быть совершеннейшим образом наплевать на чёрные поля

а очень аккуратные PDF-книги делают очень аккуратно ;))

есть, конечно, imagemagick, но, боюсь, он вам не подойдёт
29.01.2014 в 14:33

Аккаунт для использования в публичных местах. Основной ник - Trotil.
Book Restorer, Скан Кромсатор.
Мне нравился первый.

djvu-converter.narod.ru/
yadi.sk/d/e_X9TiXk5SC4b
29.01.2014 в 14:34

blah-blah-blah
кстати, после отдачи книги вас же никто не ограничивает во времени - открывайте каждую страничку в графическом редакторе и поправляйте, потом отправите всё это посредством PDFcreator в PDF
29.01.2014 в 14:42

Lennonenko,
так уже есть PDF или вы только собираетесь сканировать?
На данный момент через FineReader в PDF отсканировано около 50 разворотов из ожидаемых 600 с лишним. И на этом месте меня взяли сомнения.

выделить нужную область и впоследствии сканировать именно её
У меня сразу загружается ФайнРидер, а там такого окна предпросмотра нет. Но я сейчас параллельно гуглю про сканирвоание - все пишут, что про ФайнРидер вообще следует забыть навсегда о_О

кстати, почему они у вас чёрные? вы сканируете с открытой крышкой?
Да. Книга очень толстая, но небольшого формата. Даже если я закрою крышку, вокруг листа будет черно.

если у вас на выходе PDF - зачем вам вообще fine reader?
Ну так fine reader этот ПДФ мне и создает. Сам сканер сканирует по умолчанию в разрозненные "картинковые" страницы .jpg и т.д., а не в файл.

он нужен, если вы хотите получить редактируемый текст
а если вы хотите текст распознавать, то вам должно быть совершеннейшим образом наплевать на чёрные поля

Я хочу сделать возможным поиск по тексту, копирование части текста для цитирования, например. И чтобы можно было в случае нужды рэндомно распечатать несколько страниц из середины. Перевод в Ворд на данном этапе не актуален (просто нет времени), но в дальнейшем возможно захочу сделать и его.
29.01.2014 в 14:48

Аккаунт для использования в публичных местах. Основной ник - Trotil.
На данный момент через FineReader в PDF отсканировано около 50 разворотов из ожидаемых 600 с лишним. И на этом месте меня взяли сомнения.
по умолчанию в разрозненные "картинковые" страницы .jpg

Лучше сканировать в TIFF с максимальными настройками или что-то подобное тяжеловесное. Тогда проще обрабатывать, качественнее результат после обработки такого сырца-скана.
Это куда лучше, чем обрабатывать пережатый jpg и делать его еще более пережатым после обработки.
29.01.2014 в 14:50

Trotill, спасибо!
Эта программа в целом проста в обращении для чайника?
И правильно я понимаю по отзывал из Гугла, что ФайнРидер это зло?
Вот еще здесь полно ссылок, но много страшных незнакомых слов.


Lennonenko,
открывайте каждую страничку в графическом редакторе и поправляйте
Так чем и в какой формат книгу лучше отсканировать, чтобы потом вдумчиво править? (Убрать поля, обеспечить распознание текста (язык у книги будет не русский и не английский), возможно в дальнейшем частично распечатать для удобства перевода.
Взять книгу второй раз для сканирования другим способом возможности уже не будет.
djvu-converter.narod.ru/?
29.01.2014 в 14:51

blah-blah-blah
всё, как сказал Trotill
в PDF сканировать вообще не имеет смысла, что вы потом с ним делать будете? PDF - конечный формат
сделать его можно потом сотней сопособов
да и не обязательно PDF, если распознавание не нужено, то djvu будет лучшим выбором
29.01.2014 в 14:52

Счастье в секундах - маленьких, острых, щедрое к детям и скупое для взрослых...
если у вас на выходе PDF - зачем вам вообще fine reader?
Ну так fine reader этот ПДФ мне и создает. Сам сканер сканирует по умолчанию в разрозненные "картинковые" страницы .jpg и т.д., а не в файл.

можно покапаться в настройках сканера и он будет сам делать пдф.
29.01.2014 в 14:53

Лучше сканировать в TIFF с максимальными настройками или что-то подобное тяжеловесное.
300 dpi Хватит? Книгу сканирую для личных нужд, не "на выставку". Но хочется чтобы после обработки читать было приятно.

TIFF (постраничный) потом, значит, можно будет без проблем собрать в один PDF файл?
29.01.2014 в 14:53

Аккаунт для использования в публичных местах. Основной ник - Trotil.
Эта программа в целом проста в обращении для чайника?

Если прочитать статьи по ссылкам, то да. :) У меня она затруднений не вызвала.

И правильно я понимаю по отзывал из Гугла, что ФайнРидер это зло?

Нет, не зло. Просто для каждой задачи - свой инструмент.
29.01.2014 в 14:56

blah-blah-blah
TIFF (постраничный) потом, значит, можно будет без проблем собрать в один PDF файл?
собрать в PDF можно что угодно
29.01.2014 в 15:14

Аккаунт для использования в публичных местах. Основной ник - Trotil.
300 dpi Хватит? Книгу сканирую для личных нужд, не "на выставку". Но хочется чтобы после обработки читать было приятно.

Зависит от качества книги... Это определяется опытным путём, наблюдая конечный результат после обработки. 500 точно хватает, да и 300, в принципе, обычно тоже.
А вот то, что в книге такой причудливый шрифт, может помешать распознаванию...
29.01.2014 в 15:51

Причудливый шрифт только в первых главах, далее будет более стандартный.
Итого,
1) сканировать книгу в постраничные картинки-TIF любым способом
2) Отдаю книгу владельцу
3) Потом запускаю Book Restorer и начинаю делать правки

так?
29.01.2014 в 15:56

Аккаунт для использования в публичных местах. Основной ник - Trotil.
так?

не так.

1) сканировать книгу в постраничные картинки-TIF любым способом
2) Отдаю книгу владельцу
3) Читаете инструкцию, узнаёте о возможностях Book Restorer
4) Потом запускаю Book Restorer и начинаю делать правки
29.01.2014 в 16:05

Trotill, :lol: хорошо ))))
29.01.2014 в 21:16

Реальный мир ужасен, виртуальный - загадочен...
Я хочу сделать возможным поиск по тексту, копирование части текста для цитирования, например. И чтобы можно было в случае нужды рэндомно распечатать несколько страниц из середины. Перевод в Ворд на данном этапе не актуален (просто нет времени), но в дальнейшем возможно захочу сделать и его.

Т.е. не хотите распознавать текст, но при этом хотите копировать любые части текста для цитирования, да еще производить поиск по тексту? Так не получится. В начале распознаем, вычитываем, сравнивая с оригиналом (т.к. после распознания может быть море ошибок), а уже потом ищем по тексту и копируем его части.
29.01.2014 в 21:25

LAV ©, распознавание = переводу в Ворд, нет?
В настоящий момент ударно сканирую в TIF... Сканируется без какой-либо подрезки черных полей. Не знаю, виноват ли софт старенького сканера, или я просто не нахожу где это настраивается. Поля тоже буду резать после.
29.01.2014 в 21:35

Реальный мир ужасен, виртуальный - загадочен...
Распознавание - перевод в текст. В том числе и в ворд. Пока Вы получаете "фотоснимки" текста, а после распознавания получите буковки, которые можно будет копировать, среди которых можно будет искать и т.д.
30.01.2014 в 11:06

blah-blah-blah
*Fifi*, Сканируется без какой-либо подрезки черных полей. Не знаю, виноват ли софт старенького сканера, или я просто не нахожу где это настраивается
я же вам сказал - располагайте книгу в левом верхнем углу планшета и при сканировании выделяйте область, которую нужно сканировать, она сохранится и будет сканироваться всегда, пока вы опять её не измените
в файнридере можно выбрать, какой интерфейс использовать - FR или родной сканера

30.01.2014 в 11:19

Lennonenko, у меня какой-то другой интерфейс сканера (Эпсон) :nope:
Дома сделаю скрин настроечного экрана.
30.01.2014 в 12:19

Аккаунт для использования в публичных местах. Основной ник - Trotil.
У всех производителей по-разному. У меня тоже Epson, там всё по-другому.
30.01.2014 в 20:11

Интерфейс выглядит вот так
img836.imageshack.us/img836/5861/b9zr.png
Окно предпросмотра есть, но сделать в нем обрезку нельзя.

На пробу сделала несколько сканов через интерфейс ACD See7 - да, он делает обрезку черных полов в предпросотре, но это надо каждый раз выставлять - +5 лишних кликов мышкой. Поэтому сканирую и дальше через интерфейс со скриншота, отрезать поля буду потом...
30.01.2014 в 22:43

blah-blah-blah
*Fifi*, показанное мной - не интерфейс сканера, а настройки файнридера, где можно выбрать между интерфейсом сканирования файнридера и родного софта сканера

на вашем скрине есть кнопка "область", но она неактивна, потому что слева нужно выбрать "размер назначения", скорее всего "произвольный", тогда справа можно будет выбрать произвольную область сканирования, это решит сразу несколько задач - лишит вас чёрных полей, уменьшит размер файлов, сократит время сканирования

далее, цветность вам никуда не упёрлась, только время лишнее тратите, выбирайте "градации серого", операция ускорится в разы
31.01.2014 в 08:25

Да кому оно нужно, это бессмертие! ##### Роланд Неистовый шел и насвистывал дырочкой в правом боку##### Фикрайтеры всех стран, объединяйтесь! Спасем героев от садистов-авторов!#####Я не Кенни! Я Эникентий Мидихлорианович!
Обрезка сканированных листов в акробате выполняется командой Crop, насколько помню. В разных версиях ее суют в разные места, но она работает.
31.01.2014 в 11:36

Lennonenko, не могу найти ) Ну даладно, мне осталось досканить всего 30 разворото. Но на будущее буду искать и тренироваться, чтобы следующую книжку сканировать уже сразу правильно.

Мэлис Крэш, ок, попробую.
31.01.2014 в 11:43

Да кому оно нужно, это бессмертие! ##### Роланд Неистовый шел и насвистывал дырочкой в правом боку##### Фикрайтеры всех стран, объединяйтесь! Спасем героев от садистов-авторов!#####Я не Кенни! Я Эникентий Мидихлорианович!
*Fifi*, только осторожно надо - можно обрезать все листы одним кликом, но случайно срезать лишнее.
31.01.2014 в 11:46

Мэлис Крэш, я фанат резервных копий с резервной копии главной резервной копии )
31.01.2014 в 11:50

Да кому оно нужно, это бессмертие! ##### Роланд Неистовый шел и насвистывал дырочкой в правом боку##### Фикрайтеры всех стран, объединяйтесь! Спасем героев от садистов-авторов!#####Я не Кенни! Я Эникентий Мидихлорианович!
*Fifi*, короче, при нажатии на Crop Page появится окно, где можно точно задать обрезку полей.
16.02.2014 в 16:04

Это снова топикстартер.

На текущий момент имеются:
1) постраничные сканы в TIFF, подрезаныне в ACDSee
2) Из них через FineReader собран симпатичный DJVU файл, весом 1,5 мб против 2 гб аналогичного кол-ва страниц в TIFF (в условном сравнении)

В FR-11


Тот же файл в WinDJView


НО! Упорно не сохраняется в DJVU текстовой слой, хотя в окне FR он отображается, т.е. FR его все же сделал:

Как добавить в конечный DJVU текстовой слой? Чтобы оставался в сохранности и "картинковый", уже имеющийся в данном DJVU. Картинковый оставляю потому, что язык редкий и сложный. Вычитывать его вот прям параллельно с распознаванием я не могу. Надо чтобы потом, если в процессе чтения-копирования текстового слоя вылезут огрехи, чтобы можно было сравнить с оригиналом.

-----
С Book Restorer я не справляюсь, не совладать с функционалом и настройками. Я блондинка. :nope: Он просто не загружает TIF, выдавая сообщение об ошибке.
СканТейлор, тоже советуют, но, кажется ORC не занимается.
16.02.2014 в 18:06

*Fifi*, насколько я помню, в FR отдельно настраивается, что сохранять в файл: изображение, изображение + текстовый слой или только текстовый слой.

Не знаю, где эти настройки найти в FR11. Попробуйте правой кнопкой мыши над значком "DJVU - сохранить"...