Софт для сканирования книги

среда, 29 января 2014

14:08

все записи пользователя в сообществе *Fifi*

Или положим, есть многостраничный PDF скан книги (с поиском по строкам). Весь разворот (2 странички) на одном листе. Но по краям остаются большие и некрасивые черные поля - тень от обложки и т.д.
Как эту лишние куски убрать? И отцентрировать страницы, если они были отсканены немного неровно и под углом. Опять же, чтобы сохранился поиск по документу.

Пользуюсь самым примитивным сканером, FineReader и АкробатРидер. Сканирую в многостраничный PDF.
Сложность еще в том, что книгу надо отсканить и отдать хозяину довольно быстро. Т.е сразу поштучно медитативно обрабатывать каждую страницу из 600 не вариант. Нужно сначала сосканировать все (Какой прогой и в какой формат?) А потом уже заниматься доведением до ума - убирать поля, выравнивать странички...

Подозреваю, что существует для этого какая-то специальная прога, в сети вижу много очень аккуратных пдф-книг.
Но как?

Пример скрина странички из скана в ПДФ:

@темы: Поиск ПО, Windows 7

URL

Комментарии

29.01.2014 в 14:27

Lennonenko

blah-blah-blah

*Fifi*, так уже есть PDF или вы только собираетесь сканировать?
если собираетесь, то тащем-то не обязательно всегда сканировать всю площадь, можно выбрать область сканирования
у сканеров всегда есть обозначение верхнего левого угла, нужно книгу максимально ровно туда уложить, сделать предпросмотр, выделить нужную область и впоследствии сканировать именно её

это избавит вас от чёрных полей
кстати, почему они у вас чёрные? вы сканируете с открытой крышкой?

finereader выравнивает полученные изображение сам, там есть такая опция

если у вас на выходе PDF - зачем вам вообще fine reader? он нужен, если вы хотите получить редактируемый текст
а если вы хотите текст распознавать, то вам должно быть совершеннейшим образом наплевать на чёрные поля

а очень аккуратные PDF-книги делают очень аккуратно

)

есть, конечно, imagemagick, но, боюсь, он вам не подойдёт

URL

29.01.2014 в 14:33

Trotill

Аккаунт для использования в публичных местах. Основной ник - Trotil.

Book Restorer, Скан Кромсатор.
Мне нравился первый.

djvu-converter.narod.ru/
yadi.sk/d/e_X9TiXk5SC4b

URL

29.01.2014 в 14:34

Lennonenko

blah-blah-blah

кстати, после отдачи книги вас же никто не ограничивает во времени - открывайте каждую страничку в графическом редакторе и поправляйте, потом отправите всё это посредством PDFcreator в PDF

URL

29.01.2014 в 14:42

*Fifi*

Lennonenko,
так уже есть PDF или вы только собираетесь сканировать?
На данный момент через FineReader в PDF отсканировано около 50 разворотов из ожидаемых 600 с лишним. И на этом месте меня взяли сомнения.

выделить нужную область и впоследствии сканировать именно её
У меня сразу загружается ФайнРидер, а там такого окна предпросмотра нет. Но я сейчас параллельно гуглю про сканирвоание - все пишут, что про ФайнРидер вообще следует забыть навсегда о_О

кстати, почему они у вас чёрные? вы сканируете с открытой крышкой?
Да. Книга очень толстая, но небольшого формата. Даже если я закрою крышку, вокруг листа будет черно.

если у вас на выходе PDF - зачем вам вообще fine reader?
Ну так fine reader этот ПДФ мне и создает. Сам сканер сканирует по умолчанию в разрозненные "картинковые" страницы .jpg и т.д., а не в файл.

он нужен, если вы хотите получить редактируемый текст
а если вы хотите текст распознавать, то вам должно быть совершеннейшим образом наплевать на чёрные поля
Я хочу сделать возможным поиск по тексту, копирование части текста для цитирования, например. И чтобы можно было в случае нужды рэндомно распечатать несколько страниц из середины. Перевод в Ворд на данном этапе не актуален (просто нет времени), но в дальнейшем возможно захочу сделать и его.

URL

29.01.2014 в 14:48

Trotill

Аккаунт для использования в публичных местах. Основной ник - Trotil.

На данный момент через FineReader в PDF отсканировано около 50 разворотов из ожидаемых 600 с лишним. И на этом месте меня взяли сомнения.
по умолчанию в разрозненные "картинковые" страницы .jpg

Лучше сканировать в TIFF с максимальными настройками или что-то подобное тяжеловесное. Тогда проще обрабатывать, качественнее результат после обработки такого сырца-скана.
Это куда лучше, чем обрабатывать пережатый jpg и делать его еще более пережатым после обработки.

URL

29.01.2014 в 14:50

*Fifi*

Trotill, спасибо!
Эта программа в целом проста в обращении для чайника?
И правильно я понимаю по отзывал из Гугла, что ФайнРидер это зло?
Вот еще здесь полно ссылок, но много страшных незнакомых слов.

Lennonenko,
открывайте каждую страничку в графическом редакторе и поправляйте
Так чем и в какой формат книгу лучше отсканировать, чтобы потом вдумчиво править? (Убрать поля, обеспечить распознание текста (язык у книги будет не русский и не английский), возможно в дальнейшем частично распечатать для удобства перевода.
Взять книгу второй раз для сканирования другим способом возможности уже не будет.
djvu-converter.narod.ru/?

URL

29.01.2014 в 14:51

Lennonenko

blah-blah-blah

всё, как сказал Trotill
в PDF сканировать вообще не имеет смысла, что вы потом с ним делать будете? PDF - конечный формат
сделать его можно потом сотней сопособов
да и не обязательно PDF, если распознавание не нужено, то djvu будет лучшим выбором

URL

29.01.2014 в 14:52

Пухлощекий_Страдалец

Счастье в секундах - маленьких, острых, щедрое к детям и скупое для взрослых...

если у вас на выходе PDF - зачем вам вообще fine reader?
Ну так fine reader этот ПДФ мне и создает. Сам сканер сканирует по умолчанию в разрозненные "картинковые" страницы .jpg и т.д., а не в файл.
можно покапаться в настройках сканера и он будет сам делать пдф.

URL

29.01.2014 в 14:53

*Fifi*

Лучше сканировать в TIFF с максимальными настройками или что-то подобное тяжеловесное.
300 dpi Хватит? Книгу сканирую для личных нужд, не "на выставку". Но хочется чтобы после обработки читать было приятно.

TIFF (постраничный) потом, значит, можно будет без проблем собрать в один PDF файл?

URL

29.01.2014 в 14:53

Trotill

Аккаунт для использования в публичных местах. Основной ник - Trotil.

Эта программа в целом проста в обращении для чайника?

Если прочитать статьи по ссылкам, то да.

У меня она затруднений не вызвала.

И правильно я понимаю по отзывал из Гугла, что ФайнРидер это зло?

Нет, не зло. Просто для каждой задачи - свой инструмент.

URL

29.01.2014 в 14:56

Lennonenko

blah-blah-blah

TIFF (постраничный) потом, значит, можно будет без проблем собрать в один PDF файл?
собрать в PDF можно что угодно

URL

29.01.2014 в 15:14

Trotill

Аккаунт для использования в публичных местах. Основной ник - Trotil.

300 dpi Хватит? Книгу сканирую для личных нужд, не "на выставку". Но хочется чтобы после обработки читать было приятно.

Зависит от качества книги... Это определяется опытным путём, наблюдая конечный результат после обработки. 500 точно хватает, да и 300, в принципе, обычно тоже.
А вот то, что в книге такой причудливый шрифт, может помешать распознаванию...

URL

29.01.2014 в 15:51

*Fifi*

Причудливый шрифт только в первых главах, далее будет более стандартный.
Итого,
1) сканировать книгу в постраничные картинки-TIF любым способом
2) Отдаю книгу владельцу
3) Потом запускаю Book Restorer и начинаю делать правки

так?

URL

29.01.2014 в 15:56

Trotill

Аккаунт для использования в публичных местах. Основной ник - Trotil.

так?

не так.

1) сканировать книгу в постраничные картинки-TIF любым способом
2) Отдаю книгу владельцу
3) Читаете инструкцию, узнаёте о возможностях Book Restorer
4) Потом запускаю Book Restorer и начинаю делать правки

URL

29.01.2014 в 16:05

*Fifi*

Trotill,

хорошо ))))

URL

29.01.2014 в 21:16

LAV ©

Реальный мир ужасен, виртуальный - загадочен...

Я хочу сделать возможным поиск по тексту, копирование части текста для цитирования, например. И чтобы можно было в случае нужды рэндомно распечатать несколько страниц из середины. Перевод в Ворд на данном этапе не актуален (просто нет времени), но в дальнейшем возможно захочу сделать и его.

Т.е. не хотите распознавать текст, но при этом хотите копировать любые части текста для цитирования, да еще производить поиск по тексту? Так не получится. В начале распознаем, вычитываем, сравнивая с оригиналом (т.к. после распознания может быть море ошибок), а уже потом ищем по тексту и копируем его части.

URL

29.01.2014 в 21:25

*Fifi*

LAV ©, распознавание = переводу в Ворд, нет?
В настоящий момент ударно сканирую в TIF... Сканируется без какой-либо подрезки черных полей. Не знаю, виноват ли софт старенького сканера, или я просто не нахожу где это настраивается. Поля тоже буду резать после.

URL

29.01.2014 в 21:35

LAV ©

Реальный мир ужасен, виртуальный - загадочен...

Распознавание - перевод в текст. В том числе и в ворд. Пока Вы получаете "фотоснимки" текста, а после распознавания получите буковки, которые можно будет копировать, среди которых можно будет искать и т.д.

URL

30.01.2014 в 11:06

Lennonenko

blah-blah-blah

*Fifi*, Сканируется без какой-либо подрезки черных полей. Не знаю, виноват ли софт старенького сканера, или я просто не нахожу где это настраивается
я же вам сказал - располагайте книгу в левом верхнем углу планшета и при сканировании выделяйте область, которую нужно сканировать, она сохранится и будет сканироваться всегда, пока вы опять её не измените
в файнридере можно выбрать, какой интерфейс использовать - FR или родной сканера

URL

30.01.2014 в 11:19

*Fifi*

Lennonenko, у меня какой-то другой интерфейс сканера (Эпсон) :nope:

Дома сделаю скрин настроечного экрана.

URL

30.01.2014 в 12:19

Trotill

Аккаунт для использования в публичных местах. Основной ник - Trotil.

У всех производителей по-разному. У меня тоже Epson, там всё по-другому.

URL

30.01.2014 в 20:11

*Fifi*

Интерфейс выглядит вот так
img836.imageshack.us/img836/5861/b9zr.png
Окно предпросмотра есть, но сделать в нем обрезку нельзя.

На пробу сделала несколько сканов через интерфейс ACD See7 - да, он делает обрезку черных полов в предпросотре, но это надо каждый раз выставлять - +5 лишних кликов мышкой. Поэтому сканирую и дальше через интерфейс со скриншота, отрезать поля буду потом...

URL

30.01.2014 в 22:43

Lennonenko

blah-blah-blah

*Fifi*, показанное мной - не интерфейс сканера, а настройки файнридера, где можно выбрать между интерфейсом сканирования файнридера и родного софта сканера

на вашем скрине есть кнопка "область", но она неактивна, потому что слева нужно выбрать "размер назначения", скорее всего "произвольный", тогда справа можно будет выбрать произвольную область сканирования, это решит сразу несколько задач - лишит вас чёрных полей, уменьшит размер файлов, сократит время сканирования

далее, цветность вам никуда не упёрлась, только время лишнее тратите, выбирайте "градации серого", операция ускорится в разы

URL

31.01.2014 в 08:25

Мэлис Крэш

Да кому оно нужно, это бессмертие! ##### Роланд Неистовый шел и насвистывал дырочкой в правом боку##### Фикрайтеры всех стран, объединяйтесь! Спасем героев от садистов-авторов!#####Я не Кенни! Я Эникентий Мидихлорианович!

Обрезка сканированных листов в акробате выполняется командой Crop, насколько помню. В разных версиях ее суют в разные места, но она работает.

URL

31.01.2014 в 11:36

*Fifi*

Lennonenko, не могу найти ) Ну даладно, мне осталось досканить всего 30 разворото. Но на будущее буду искать и тренироваться, чтобы следующую книжку сканировать уже сразу правильно.

Мэлис Крэш, ок, попробую.

URL

31.01.2014 в 11:43

Мэлис Крэш

*Fifi*, только осторожно надо - можно обрезать все листы одним кликом, но случайно срезать лишнее.

URL

31.01.2014 в 11:46

*Fifi*

Мэлис Крэш, я фанат резервных копий с резервной копии главной резервной копии )

URL

31.01.2014 в 11:50

Мэлис Крэш

*Fifi*, короче, при нажатии на Crop Page появится окно, где можно точно задать обрезку полей.

URL

16.02.2014 в 16:04

*Fifi*

Это снова топикстартер.

На текущий момент имеются:
1) постраничные сканы в TIFF, подрезаныне в ACDSee
2) Из них через FineReader собран симпатичный DJVU файл, весом 1,5 мб против 2 гб аналогичного кол-ва страниц в TIFF (в условном сравнении)

В FR-11

Тот же файл в WinDJView

НО! Упорно не сохраняется в DJVU текстовой слой, хотя в окне FR он отображается, т.е. FR его все же сделал:

Как добавить в конечный DJVU текстовой слой? Чтобы оставался в сохранности и "картинковый", уже имеющийся в данном DJVU. Картинковый оставляю потому, что язык редкий и сложный. Вычитывать его вот прям параллельно с распознаванием я не могу. Надо чтобы потом, если в процессе чтения-копирования текстового слоя вылезут огрехи, чтобы можно было сравнить с оригиналом.

-----
С Book Restorer я не справляюсь, не совладать с функционалом и настройками. Я блондинка. :nope:

Он просто не загружает TIF, выдавая сообщение об ошибке.
СканТейлор, тоже советуют, но, кажется ORC не занимается.

URL

16.02.2014 в 18:06

Trotil

*Fifi*, насколько я помню, в FR отдельно настраивается, что сохранять в файл: изображение, изображение + текстовый слой или только текстовый слой.

Не знаю, где эти настройки найти в FR11. Попробуйте правой кнопкой мыши над значком "DJVU - сохранить"...

URL

1 2 Следующая → Последняя


Запомнить

Софт для сканирования книги

Помощь @экспертов – Хард и софт