Имеется собственноручно отсканированная в Ворд книга. Визуально текст в ворде выглядит вполне читабельным, но при попытке его подредактировать (убрать нумерацию страниц, подтянуть ненужные пробелы и т.д.) оказывается, что текст сплошь состоит из блоков, нераспознаваемых символов, буквицы начала абзаца - тоже оформлены как отдельный блок и т.д. Т.е. банальную копи-пасту сделать почти невозможно, нужно чуть ли не каждый абзац копировать вручную. О том, чтобы переконвертировать текст в fb2 вообще и речи нет. Места разрывов страниц вообще писец.
В тексте много цитат (выделены более мелким штифтом и чуть иным форматированием) - в ворде они тоже стали блоками.
И так все 600 с лишним страниц. Вручную копи-пастить каждый абзац (а иногда и каждую вторую строку, потому что блок внезапно может быть на каждую строку) можно до пенсии.

Вопрос: существует ли способ разом вычистить из файла всю эту гадость, оставив только сам текст? Готов даже пожертвовать начертаниями шрифтов - выделением цитат более мелким шрифтом.

Блоки выглядят как-то так.
читать дальше