Или положим, есть многостраничный PDF скан книги (с поиском по строкам). Весь разворот (2 странички) на одном листе. Но по краям остаются большие и некрасивые черные поля - тень от обложки и т.д.
Как эту лишние куски убрать? И отцентрировать страницы, если они были отсканены немного неровно и под углом. Опять же, чтобы сохранился поиск по документу.
Пользуюсь самым примитивным сканером, FineReader и АкробатРидер. Сканирую в многостраничный PDF.
Сложность еще в том, что книгу надо отсканить и отдать хозяину довольно быстро. Т.е сразу поштучно медитативно обрабатывать каждую страницу из 600 не вариант. Нужно сначала сосканировать все (Какой прогой и в какой формат?) А потом уже заниматься доведением до ума - убирать поля, выравнивать странички...
Подозреваю, что существует для этого какая-то специальная прога, в сети вижу много очень аккуратных пдф-книг.
Но как?
Пример скрина странички из скана в ПДФ:

Как эту лишние куски убрать? И отцентрировать страницы, если они были отсканены немного неровно и под углом. Опять же, чтобы сохранился поиск по документу.
Пользуюсь самым примитивным сканером, FineReader и АкробатРидер. Сканирую в многостраничный PDF.
Сложность еще в том, что книгу надо отсканить и отдать хозяину довольно быстро. Т.е сразу поштучно медитативно обрабатывать каждую страницу из 600 не вариант. Нужно сначала сосканировать все (Какой прогой и в какой формат?) А потом уже заниматься доведением до ума - убирать поля, выравнивать странички...
Подозреваю, что существует для этого какая-то специальная прога, в сети вижу много очень аккуратных пдф-книг.
Но как?
Пример скрина странички из скана в ПДФ:

-
-
29.01.2014 в 14:27если собираетесь, то тащем-то не обязательно всегда сканировать всю площадь, можно выбрать область сканирования
у сканеров всегда есть обозначение верхнего левого угла, нужно книгу максимально ровно туда уложить, сделать предпросмотр, выделить нужную область и впоследствии сканировать именно её
это избавит вас от чёрных полей
кстати, почему они у вас чёрные? вы сканируете с открытой крышкой?
finereader выравнивает полученные изображение сам, там есть такая опция
если у вас на выходе PDF - зачем вам вообще fine reader? он нужен, если вы хотите получить редактируемый текст
а если вы хотите текст распознавать, то вам должно быть совершеннейшим образом наплевать на чёрные поля
а очень аккуратные PDF-книги делают очень аккуратно
есть, конечно, imagemagick, но, боюсь, он вам не подойдёт
-
-
29.01.2014 в 14:33Мне нравился первый.
djvu-converter.narod.ru/
yadi.sk/d/e_X9TiXk5SC4b
-
-
29.01.2014 в 14:34-
-
29.01.2014 в 14:42так уже есть PDF или вы только собираетесь сканировать?
На данный момент через FineReader в PDF отсканировано около 50 разворотов из ожидаемых 600 с лишним. И на этом месте меня взяли сомнения.
выделить нужную область и впоследствии сканировать именно её
У меня сразу загружается ФайнРидер, а там такого окна предпросмотра нет. Но я сейчас параллельно гуглю про сканирвоание - все пишут, что про ФайнРидер вообще следует забыть навсегда о_О
кстати, почему они у вас чёрные? вы сканируете с открытой крышкой?
Да. Книга очень толстая, но небольшого формата. Даже если я закрою крышку, вокруг листа будет черно.
если у вас на выходе PDF - зачем вам вообще fine reader?
Ну так fine reader этот ПДФ мне и создает. Сам сканер сканирует по умолчанию в разрозненные "картинковые" страницы .jpg и т.д., а не в файл.
он нужен, если вы хотите получить редактируемый текст
а если вы хотите текст распознавать, то вам должно быть совершеннейшим образом наплевать на чёрные поля
Я хочу сделать возможным поиск по тексту, копирование части текста для цитирования, например. И чтобы можно было в случае нужды рэндомно распечатать несколько страниц из середины. Перевод в Ворд на данном этапе не актуален (просто нет времени), но в дальнейшем возможно захочу сделать и его.
-
-
29.01.2014 в 14:48по умолчанию в разрозненные "картинковые" страницы .jpg
Лучше сканировать в TIFF с максимальными настройками или что-то подобное тяжеловесное. Тогда проще обрабатывать, качественнее результат после обработки такого сырца-скана.
Это куда лучше, чем обрабатывать пережатый jpg и делать его еще более пережатым после обработки.
-
-
29.01.2014 в 14:50Эта программа в целом проста в обращении для чайника?
И правильно я понимаю по отзывал из Гугла, что ФайнРидер это зло?
Вот еще здесь полно ссылок, но много страшных незнакомых слов.
Lennonenko,
открывайте каждую страничку в графическом редакторе и поправляйте
Так чем и в какой формат книгу лучше отсканировать, чтобы потом вдумчиво править? (Убрать поля, обеспечить распознание текста (язык у книги будет не русский и не английский), возможно в дальнейшем частично распечатать для удобства перевода.
Взять книгу второй раз для сканирования другим способом возможности уже не будет.
djvu-converter.narod.ru/?
-
-
29.01.2014 в 14:51в PDF сканировать вообще не имеет смысла, что вы потом с ним делать будете? PDF - конечный формат
сделать его можно потом сотней сопособов
да и не обязательно PDF, если распознавание не нужено, то djvu будет лучшим выбором
-
-
29.01.2014 в 14:52Ну так fine reader этот ПДФ мне и создает. Сам сканер сканирует по умолчанию в разрозненные "картинковые" страницы .jpg и т.д., а не в файл.
можно покапаться в настройках сканера и он будет сам делать пдф.
-
-
29.01.2014 в 14:53300 dpi Хватит? Книгу сканирую для личных нужд, не "на выставку". Но хочется чтобы после обработки читать было приятно.
TIFF (постраничный) потом, значит, можно будет без проблем собрать в один PDF файл?
-
-
29.01.2014 в 14:53Если прочитать статьи по ссылкам, то да.
И правильно я понимаю по отзывал из Гугла, что ФайнРидер это зло?
Нет, не зло. Просто для каждой задачи - свой инструмент.
-
-
29.01.2014 в 14:56собрать в PDF можно что угодно
-
-
29.01.2014 в 15:14Зависит от качества книги... Это определяется опытным путём, наблюдая конечный результат после обработки. 500 точно хватает, да и 300, в принципе, обычно тоже.
А вот то, что в книге такой причудливый шрифт, может помешать распознаванию...
-
-
29.01.2014 в 15:51Итого,
1) сканировать книгу в постраничные картинки-TIF любым способом
2) Отдаю книгу владельцу
3) Потом запускаю Book Restorer и начинаю делать правки
так?
-
-
29.01.2014 в 15:56не так.
1) сканировать книгу в постраничные картинки-TIF любым способом
2) Отдаю книгу владельцу
3) Читаете инструкцию, узнаёте о возможностях Book Restorer
4) Потом запускаю Book Restorer и начинаю делать правки
-
-
29.01.2014 в 16:05-
-
29.01.2014 в 21:16Т.е. не хотите распознавать текст, но при этом хотите копировать любые части текста для цитирования, да еще производить поиск по тексту? Так не получится. В начале распознаем, вычитываем, сравнивая с оригиналом (т.к. после распознания может быть море ошибок), а уже потом ищем по тексту и копируем его части.
-
-
29.01.2014 в 21:25В настоящий момент ударно сканирую в TIF... Сканируется без какой-либо подрезки черных полей. Не знаю, виноват ли софт старенького сканера, или я просто не нахожу где это настраивается. Поля тоже буду резать после.
-
-
29.01.2014 в 21:35-
-
30.01.2014 в 11:06я же вам сказал - располагайте книгу в левом верхнем углу планшета и при сканировании выделяйте область, которую нужно сканировать, она сохранится и будет сканироваться всегда, пока вы опять её не измените
в файнридере можно выбрать, какой интерфейс использовать - FR или родной сканера
-
-
30.01.2014 в 11:19Дома сделаю скрин настроечного экрана.
-
-
30.01.2014 в 12:19-
-
30.01.2014 в 20:11img836.imageshack.us/img836/5861/b9zr.png
Окно предпросмотра есть, но сделать в нем обрезку нельзя.
На пробу сделала несколько сканов через интерфейс ACD See7 - да, он делает обрезку черных полов в предпросотре, но это надо каждый раз выставлять - +5 лишних кликов мышкой. Поэтому сканирую и дальше через интерфейс со скриншота, отрезать поля буду потом...
-
-
30.01.2014 в 22:43на вашем скрине есть кнопка "область", но она неактивна, потому что слева нужно выбрать "размер назначения", скорее всего "произвольный", тогда справа можно будет выбрать произвольную область сканирования, это решит сразу несколько задач - лишит вас чёрных полей, уменьшит размер файлов, сократит время сканирования
далее, цветность вам никуда не упёрлась, только время лишнее тратите, выбирайте "градации серого", операция ускорится в разы
-
-
31.01.2014 в 08:25-
-
31.01.2014 в 11:36Мэлис Крэш, ок, попробую.
-
-
31.01.2014 в 11:43-
-
31.01.2014 в 11:46-
-
31.01.2014 в 11:50-
-
16.02.2014 в 16:04На текущий момент имеются:
1) постраничные сканы в TIFF, подрезаныне в ACDSee
2) Из них через FineReader собран симпатичный DJVU файл, весом 1,5 мб против 2 гб аналогичного кол-ва страниц в TIFF (в условном сравнении)
В FR-11
Тот же файл в WinDJView
НО! Упорно не сохраняется в DJVU текстовой слой, хотя в окне FR он отображается, т.е. FR его все же сделал:
Как добавить в конечный DJVU текстовой слой? Чтобы оставался в сохранности и "картинковый", уже имеющийся в данном DJVU. Картинковый оставляю потому, что язык редкий и сложный. Вычитывать его вот прям параллельно с распознаванием я не могу. Надо чтобы потом, если в процессе чтения-копирования текстового слоя вылезут огрехи, чтобы можно было сравнить с оригиналом.
-----
С Book Restorer я не справляюсь, не совладать с функционалом и настройками. Я блондинка.
СканТейлор, тоже советуют, но, кажется ORC не занимается.
-
-
16.02.2014 в 18:06Не знаю, где эти настройки найти в FR11. Попробуйте правой кнопкой мыши над значком "DJVU - сохранить"...