Как в Abbyy FineReader объявить все страницы скана книги текстовыми областями?

@JohnyWalker · Регистрация: 15.11.2010

Студворк — интернет-сервис помощи студентам

Здравствуйте, форумчане! Помогите, пожалуйста, решить следующую проблему.

Имеется скан книги в формате djvu, выполненный в довольно низком, но достаточном для распознавания текста качестве. При попытке распознать книжку программой Abbyy FineReader 12 бОльшая часть текста определяется как картинка и распознавания текста в этих областях не происходит. Есть ли возможность все страницы книги целиком объявить текстовыми областями, после чего уже выполнить распознавание?

Я знаю, что я могу выделить каждую страницу книжки зеленой рамкой, после чего все они будут FineReader'ом трактоваться как текст, но обводить мышкой каждую страницу вручную, когда их больше 600 штук, очень бы не хотелось. Это очень большая работа. Есть ли возможность выделить все страницы документа как текстовые области автоматически одной командой FineReader'а?

Буду вам очень благодарен за помощь и советы.

@arhistratig13 · 12.07.2014, 01:20

JohnyWalker

Как в Abbyy FineReader объявить все страницы скана книги текстовыми областями?

Вот тут выделяете всю страницу как надо, нажимаете сохранить шаблон
Потом выделяете все остальные и нажимаете применить шаблон
На нескольких страницах не пробовал, но на одной все сработало

@JohnyWalker · 12.07.2014, 04:30 **[ТС]**

arhistratig13, спасибо за совет, я уже пробовал сделать все так, как Вы мне написали, делал по этой инструкции:

http://help.abbyy.com/FineRead... plates.htm .

Выделил всю поверхность всех страниц как текстовые области. Только вот книгу распознать у меня все равно не получилось. Распознались лишь некоторые надписи и заголовки в ней, отпечатанные крупным шрифтом. Когда стал разбираться, выяснилось следующее.

Все страницы в книге имеют слишком маленькое разрешение. При номинально заданных 600 dpi размер каждой страницы составляет приблизительно 1200x800 пикселей. Т. е, переводя это в сантиметры, получаем, что каждая страница имеет приблизительный размер 5 см x 3,5 см. Соответственно, каждая буква, каждый печатный символ книги состоит из слишком маленького числа пикселей, т. е. формально относится к крайне мелкому шрифту, что и вызывает трудности в распознавании такого текста, состоящего из букв, набранных очень мелким шрифтом. Хотя я вижу, что качество текста в книге хоть и низкое, но вполне достаточное для того, чтобы программа вроде FineReader'а смогла его распознать. Визуально, на глаз, текст воспринимается и никаких проблем при чтении не вызывает - он вполне читаемый.

Что посоветуете делать в такой ситуации?

Я уже стал думать о том, как бы мне увеличить размер каждой страницы, чтобы число пикселей по вертикали и по горизонтали у каждой страницы стало бОльшим. Одна идея заключалась в следующем. Переконвертировать djvu-файл в файлы jpeg, так чтобы из каждой страницы исходного djvu появился свой jpeg. Дальше каждый полученный jpeg можно было бы увеличить - применить к нему преобразование масштабирования - чтобы число пикселей по горизонтали и вертикали стало бОльшим. А дальше получившиеся новые jpeg-файлы собрать опять в один djvu или pdf-файл и распознать его FineReader'ом. Я уже стал искать утилиты командной строки из мира Linux, которые позволили бы сделать все это дело в пакетном режиме, чтобы с каждым файлом не возиться по отдельности. Стал смотреть djvulibre и прочая. Но с этим со всем все равно очень долго нужно разбираться, искать программки с интерфейсом командной строки, которые все это делают, читать документацию и man'ы по ним. Короче, очень много возни.

Вы не знаете способ, как все это можно сделать проще и быстрее? Не выполнять никаких преобразований в jpeg и обратно, не использовать никаких утилит командной строки для масштабирования (увеличения размера) jpeg-файлов, а решить эту задачу, не выходя из FineReader'а, FineReader'овскими же командами. Я такой опции, которая позволила бы пропорционально увеличить размер всех страниц, выполнить преобразование масштабирования, в меню FineReader'а не нашел. Может, она есть? Если есть - подскажите, пожалуйста, где она находится и как ей пользоваться, вкратце.

Или подскажите, как заставить FineReader в принудительном режиме распознавать такие картинки с низким разрешением и, как следствие, с мелким шрифтом букв без преобразования изображения в более высокое разрешение. Если, конечно, он способен распознать текст на таких картинках.

В общем, если есть какие-то хорошие решения моей проблемы - подскажите. Буду очень благодарен, а то я уже начинаю искать свои решения, но они слишком сложные и с ними будет очень много возни.

Добавлено через 5 минут
PS
Если хотите, я могу Вам даже прислать ссылку на книгу в личку.

magirus · 12.07.2014, 08:14

Сообщение от JohnyWalker

Что посоветуете делать в такой ситуации?

а дальше ручками батенька, ручками.... извини, немного утрировано, но из трех пикселей тебе букву никто не угадает.

Добавлено через 56 секунд

Сообщение от JohnyWalker

я вижу

это ты видишь.

@arhistratig13 · 12.07.2014, 11:17

Сообщение от magirus

а дальше ручками батенька, ручками.... извини, немного утрировано, но из трех пикселей тебе букву никто не угадает.

полностью согласен...
к сожалению даже если увеличить механически разрешение, само разрешение сканирования останется прежним, можно все-таки попробовать увеличить, если уверенно буквы различимы

Сообщение от JohnyWalker

Дальше каждый полученный jpeg можно было бы увеличить - применить к нему преобразование масштабирования - чтобы число пикселей по горизонтали и вертикали стало бОльшим.

Но если чисто отвечая на вопрос о пакетном редактировании изображений - очень легко и просто это делает программка ACDSee Pro
Как это без извлечения jpg сделать не знаю...

@arhistratig13 · 12.07.2014, 11:25

скрин где это в ACDSee

@JohnyWalker · 13.07.2014, 14:51 **[ТС]**

Проблему в итоге удалось решить, причем средствами самого FineReader'а, не привлекая для этого какой-либо сторонний софт, графические редакторы и пакетную обработку файлов. Увеличивать размер изображений страниц тоже не пришлось, обошлось без этого.

А дело оказалось вот в чем. Изображения страниц в изначальном файле djvu с электронной книгой были действительно очень маленькие, как я и говорил, примерно 1200x800 при установленном якобы разрешении в 600 dpi. Таким образом геометрический размер страницы оказывался равным приблизительно 5 см x 3,5 см. При таком размере страницы шрифт символов, которыми был набран текст, оказывался в геометрическом измерении очень мелким, т. е. текст был как бы набран шрифтом с очень маленьким кеглем. Похоже, что программа FineReader изначально настроена таким образом, что буквы таких шрифтов она просто игнорирует, даже не пытается их проанализировать и распознать, рассматривая их как мусор и фон. Поэтому весь этот мелкий текст опознавался как картинка, и в форме картинки попадал в выходной документ, построенный FineReader'ом. Естественно, никаких распознанных букв эта картинка не содержала.

Выход заключался в том, чтобы формально изменить разрешение страниц с 600 dpi на более низкое, не трогая при этом и не изменяя само изображение. Тогда изображение оставалось в прежнем неизменном виде, количество пикселей по горизонтали и вертикали, занимаемых им, также оставалось прежним, однако чисто номинально геометрический размер изображения увеличивался. Оставаясь точно таким же в пиксельных единицах, в метрических единицах измерения (сантиметрах, дюймах и т. п.) формально оно становилось больше. Буквы текста при этом также формально увеличивались, шрифты приобретали нормальный общепринятый размер и уже не игнорировались FineReader'ом, а нормально распознавались.

Как я и писал, качество книжки довольно низкое, но вполне приемлемое для распознавания. Распозналось не очень хорошо, не достаточно уверенно, в тексте довольно много ошибок, но вполне удовлетворительно. Как я и писал, увеличивать изображения страниц в пикселях для этого не пришлось, хватило чисто формального трюка с разрешением в dpi. В исходной книге оно было установлено в 600 dpi для всех страниц, я же его установил в 100 dpi для всех страниц, т. е. номинально увеличил размер каждой страницы в 6 раз.

Добавлено через 31 минуту
Теперь краткое описание, как я это делал в FineReader'е. Вдруг пригодится кому-нибудь еще.

1. Загружаем в FineReader файл с нераспознанной электронной книгой.

2. Выбираем в меню программы пункт Страница -> Редактор изображений. Эта же опция обычно присутствует в панели инструментов в виде кнопки с подписью Редактировать. После выбора данной опции переходим в редактор изображений.

3. В колонке справа с различными инструментами и опциями редактирования находим пункт Разрешение изображения. Щелкаем мышкой по нему. Появляется список опций выбора разрешения следующего примерно вида:

Укажите разрешение изображения:
* 300 dpi (для отсканированных изображений)
* 200 dpi (для факсов)
* 96 dpi (для снимков экрана)
* Другое: XXX dpi

где XXX - конкретное разрешение текущей страницы вашего документа.

4. Выберите в данном списке опций вариант другое, в поле разрешение проставьте нужное вам значение. В моем случае изначально стояло 600 dpi, я его изменил на 100 dpi. Этим я номинально увеличил изображение в 6 раз.

5. Из списка опций Применить к:, расположенного чуть ниже, в котором предлагается на выбор применить изменение разрешения к Текущей странице, Нечетным страницам, Четным страницам, Всем страницам, выбрать вариант Все страницы.

6. Нажать на расположенную ниже кнопку Применить.

7. Появляется табличка с запросом подтверждения вида:

Предупрежение:
Страницы 1 - NNN будут изменены. Данную операцию невозможно отменить. Нажмите OK, чтобы продолжить.
OK Отмена

Нажимаем на ней кнопку OK, и запускается обработчик, автоматически меняющей разрешение всех страниц на выбранное нами. Работает он очень недолго, после завершения его работы для всех страниц электронной книги устанавливается новое разрешение.

Теперь можно приступать к распознаванию. Если текст имеет удовлетворительное качество и разборчив на глаз, то он будет нормально распознан. Главное при этом, чтобы буквы основного шрифта, которым набран текст, были нормального общепринятого размера (т. е. не были микроскопического размера).

Добавлено через 12 минут
PS
Не стал делать скриншоты, но думаю, что и без них по написанному разобраться будет несложно. Специально все расписал подробно. Делал все в версии Abby FineReader 12, для нее и составлено описание.

@arhistratig13 · 13.07.2014, 16:21

JohnyWalker, круто! я думаю это довольно полезная тема, которая может помочь многим!

Новые блоги и статьи Все статьи Все блоги /
Музыка, написанная Искусственным Интеллектом volvo 04.12.2025 Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .	От async/await к виртуальным потокам в Python IndentationError 23.11.2025 Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .	Поиск "дружественных имён" СОМ портов Argus19 22.11.2025 Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .	Сколько Государство потратило денег на меня, обеспечивая инсулином. Programma_Boinc 20.11.2025 Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .	Ломающие изменения в C#.NStar Alpha Etyuhibosecyu 20.11.2025 Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух kumehtar 18.11.2025 Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .	Создание Single Page Application на фреймах krapotkin 16.11.2025 Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .	Фото: Daniel Greenwood kumehtar 13.11.2025	Расскажи мне о Мире, бродяга kumehtar 12.11.2025 — Расскажи мне о Мире, бродяга, Ты же видел моря и метели. Как сменялись короны и стяги, Как эпохи стрелою летели. - Этот мир — это крылья и горы, Снег и пламя, любовь и тревоги, И бескрайние. . .	PowerShell Snippets iNNOKENTIY21 11.11.2025 Модуль PowerShell 5. 1+ : Snippets. psm1 У меня модуль расположен в пользовательской папке модулей, по умолчанию: \Documents\WindowsPowerShell\Modules\Snippets\ А в самом низу файла-профиля. . .

@JohnyWalker 200 / 87 / 9 Регистрация: 15.11.2010 Сообщений: 472

	Как в Abbyy FineReader объявить все страницы скана книги текстовыми областями? 08.07.2014, 21:10. Показов 23399. Ответов 7 Метки нет (Все метки) Здравствуйте, форумчане! Помогите, пожалуйста, решить следующую проблему. Имеется скан книги в формате djvu, выполненный в довольно низком, но достаточном для распознавания текста качестве. При попытке распознать книжку программой Abbyy FineReader 12 бОльшая часть текста определяется как картинка и распознавания текста в этих областях не происходит. Есть ли возможность все страницы книги целиком объявить текстовыми областями, после чего уже выполнить распознавание? Я знаю, что я могу выделить каждую страницу книжки зеленой рамкой, после чего все они будут FineReader'ом трактоваться как текст, но обводить мышкой каждую страницу вручную, когда их больше 600 штук, очень бы не хотелось. Это очень большая работа. Есть ли возможность выделить все страницы документа как текстовые области автоматически одной командой FineReader'а? Буду вам очень благодарен за помощь и советы. 0

@arhistratig13 26 / 19 / 2 Регистрация: 18.06.2013 Сообщений: 121
	12.07.2014, 01:20
	JohnyWalker Вот тут выделяете всю страницу как надо, нажимаете сохранить шаблон Потом выделяете все остальные и нажимаете применить шаблон На нескольких страницах не пробовал, но на одной все сработало 2

@JohnyWalker 200 / 87 / 9 Регистрация: 15.11.2010 Сообщений: 472
	12.07.2014, 04:30 [ТС]
	arhistratig13, спасибо за совет, я уже пробовал сделать все так, как Вы мне написали, делал по этой инструкции: http://help.abbyy.com/FineRead... plates.htm . Выделил всю поверхность всех страниц как текстовые области. Только вот книгу распознать у меня все равно не получилось. Распознались лишь некоторые надписи и заголовки в ней, отпечатанные крупным шрифтом. Когда стал разбираться, выяснилось следующее. Все страницы в книге имеют слишком маленькое разрешение. При номинально заданных 600 dpi размер каждой страницы составляет приблизительно 1200x800 пикселей. Т. е, переводя это в сантиметры, получаем, что каждая страница имеет приблизительный размер 5 см x 3,5 см. Соответственно, каждая буква, каждый печатный символ книги состоит из слишком маленького числа пикселей, т. е. формально относится к крайне мелкому шрифту, что и вызывает трудности в распознавании такого текста, состоящего из букв, набранных очень мелким шрифтом. Хотя я вижу, что качество текста в книге хоть и низкое, но вполне достаточное для того, чтобы программа вроде FineReader'а смогла его распознать. Визуально, на глаз, текст воспринимается и никаких проблем при чтении не вызывает - он вполне читаемый. Что посоветуете делать в такой ситуации? Я уже стал думать о том, как бы мне увеличить размер каждой страницы, чтобы число пикселей по вертикали и по горизонтали у каждой страницы стало бОльшим. Одна идея заключалась в следующем. Переконвертировать djvu-файл в файлы jpeg, так чтобы из каждой страницы исходного djvu появился свой jpeg. Дальше каждый полученный jpeg можно было бы увеличить - применить к нему преобразование масштабирования - чтобы число пикселей по горизонтали и вертикали стало бОльшим. А дальше получившиеся новые jpeg-файлы собрать опять в один djvu или pdf-файл и распознать его FineReader'ом. Я уже стал искать утилиты командной строки из мира Linux, которые позволили бы сделать все это дело в пакетном режиме, чтобы с каждым файлом не возиться по отдельности. Стал смотреть djvulibre и прочая. Но с этим со всем все равно очень долго нужно разбираться, искать программки с интерфейсом командной строки, которые все это делают, читать документацию и man'ы по ним. Короче, очень много возни. Вы не знаете способ, как все это можно сделать проще и быстрее? Не выполнять никаких преобразований в jpeg и обратно, не использовать никаких утилит командной строки для масштабирования (увеличения размера) jpeg-файлов, а решить эту задачу, не выходя из FineReader'а, FineReader'овскими же командами. Я такой опции, которая позволила бы пропорционально увеличить размер всех страниц, выполнить преобразование масштабирования, в меню FineReader'а не нашел. Может, она есть? Если есть - подскажите, пожалуйста, где она находится и как ей пользоваться, вкратце. Или подскажите, как заставить FineReader в принудительном режиме распознавать такие картинки с низким разрешением и, как следствие, с мелким шрифтом букв без преобразования изображения в более высокое разрешение. Если, конечно, он способен распознать текст на таких картинках. В общем, если есть какие-то хорошие решения моей проблемы - подскажите. Буду очень благодарен, а то я уже начинаю искать свои решения, но они слишком сложные и с ними будет очень много возни. Добавлено через 5 минут PS Если хотите, я могу Вам даже прислать ссылку на книгу в личку. 0

@arhistratig13 26 / 19 / 2 Регистрация: 18.06.2013 Сообщений: 121
	12.07.2014, 11:25
	скрин где это в ACDSee 1

@JohnyWalker 200 / 87 / 9 Регистрация: 15.11.2010 Сообщений: 472
	13.07.2014, 14:51 [ТС]
	Проблему в итоге удалось решить, причем средствами самого FineReader'а, не привлекая для этого какой-либо сторонний софт, графические редакторы и пакетную обработку файлов. Увеличивать размер изображений страниц тоже не пришлось, обошлось без этого. А дело оказалось вот в чем. Изображения страниц в изначальном файле djvu с электронной книгой были действительно очень маленькие, как я и говорил, примерно 1200x800 при установленном якобы разрешении в 600 dpi. Таким образом геометрический размер страницы оказывался равным приблизительно 5 см x 3,5 см. При таком размере страницы шрифт символов, которыми был набран текст, оказывался в геометрическом измерении очень мелким, т. е. текст был как бы набран шрифтом с очень маленьким кеглем. Похоже, что программа FineReader изначально настроена таким образом, что буквы таких шрифтов она просто игнорирует, даже не пытается их проанализировать и распознать, рассматривая их как мусор и фон. Поэтому весь этот мелкий текст опознавался как картинка, и в форме картинки попадал в выходной документ, построенный FineReader'ом. Естественно, никаких распознанных букв эта картинка не содержала. Выход заключался в том, чтобы формально изменить разрешение страниц с 600 dpi на более низкое, не трогая при этом и не изменяя само изображение. Тогда изображение оставалось в прежнем неизменном виде, количество пикселей по горизонтали и вертикали, занимаемых им, также оставалось прежним, однако чисто номинально геометрический размер изображения увеличивался. Оставаясь точно таким же в пиксельных единицах, в метрических единицах измерения (сантиметрах, дюймах и т. п.) формально оно становилось больше. Буквы текста при этом также формально увеличивались, шрифты приобретали нормальный общепринятый размер и уже не игнорировались FineReader'ом, а нормально распознавались. Как я и писал, качество книжки довольно низкое, но вполне приемлемое для распознавания. Распозналось не очень хорошо, не достаточно уверенно, в тексте довольно много ошибок, но вполне удовлетворительно. Как я и писал, увеличивать изображения страниц в пикселях для этого не пришлось, хватило чисто формального трюка с разрешением в dpi. В исходной книге оно было установлено в 600 dpi для всех страниц, я же его установил в 100 dpi для всех страниц, т. е. номинально увеличил размер каждой страницы в 6 раз. Добавлено через 31 минуту Теперь краткое описание, как я это делал в FineReader'е. Вдруг пригодится кому-нибудь еще. 1. Загружаем в FineReader файл с нераспознанной электронной книгой. 2. Выбираем в меню программы пункт Страница -> Редактор изображений. Эта же опция обычно присутствует в панели инструментов в виде кнопки с подписью Редактировать. После выбора данной опции переходим в редактор изображений. 3. В колонке справа с различными инструментами и опциями редактирования находим пункт Разрешение изображения. Щелкаем мышкой по нему. Появляется список опций выбора разрешения следующего примерно вида: Укажите разрешение изображения: * 300 dpi (для отсканированных изображений) * 200 dpi (для факсов) * 96 dpi (для снимков экрана) * Другое: XXX dpi где XXX - конкретное разрешение текущей страницы вашего документа. 4. Выберите в данном списке опций вариант другое, в поле разрешение проставьте нужное вам значение. В моем случае изначально стояло 600 dpi, я его изменил на 100 dpi. Этим я номинально увеличил изображение в 6 раз. 5. Из списка опций Применить к:, расположенного чуть ниже, в котором предлагается на выбор применить изменение разрешения к Текущей странице, Нечетным страницам, Четным страницам, Всем страницам, выбрать вариант Все страницы. 6. Нажать на расположенную ниже кнопку Применить. 7. Появляется табличка с запросом подтверждения вида: Предупрежение: Страницы 1 - NNN будут изменены. Данную операцию невозможно отменить. Нажмите OK, чтобы продолжить. OK Отмена Нажимаем на ней кнопку OK, и запускается обработчик, автоматически меняющей разрешение всех страниц на выбранное нами. Работает он очень недолго, после завершения его работы для всех страниц электронной книги устанавливается новое разрешение. Теперь можно приступать к распознаванию. Если текст имеет удовлетворительное качество и разборчив на глаз, то он будет нормально распознан. Главное при этом, чтобы буквы основного шрифта, которым набран текст, были нормального общепринятого размера (т. е. не были микроскопического размера). Добавлено через 12 минут PS Не стал делать скриншоты, но думаю, что и без них по написанному разобраться будет несложно. Специально все расписал подробно. Делал все в версии Abby FineReader 12, для нее и составлено описание. 3

@arhistratig13 26 / 19 / 2 Регистрация: 18.06.2013 Сообщений: 121
	13.07.2014, 16:21
	JohnyWalker, круто! я думаю это довольно полезная тема, которая может помочь многим! 0