Форум программистов, компьютерный форум, киберфорум
Софт (программы)
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.76/107: Рейтинг темы: голосов - 107, средняя оценка - 4.76
200 / 87 / 9
Регистрация: 15.11.2010
Сообщений: 472

Как в Abbyy FineReader объявить все страницы скана книги текстовыми областями?

08.07.2014, 21:10. Показов 23399. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте, форумчане! Помогите, пожалуйста, решить следующую проблему.

Имеется скан книги в формате djvu, выполненный в довольно низком, но достаточном для распознавания текста качестве. При попытке распознать книжку программой Abbyy FineReader 12 бОльшая часть текста определяется как картинка и распознавания текста в этих областях не происходит. Есть ли возможность все страницы книги целиком объявить текстовыми областями, после чего уже выполнить распознавание?

Я знаю, что я могу выделить каждую страницу книжки зеленой рамкой, после чего все они будут FineReader'ом трактоваться как текст, но обводить мышкой каждую страницу вручную, когда их больше 600 штук, очень бы не хотелось. Это очень большая работа. Есть ли возможность выделить все страницы документа как текстовые области автоматически одной командой FineReader'а?

Буду вам очень благодарен за помощь и советы.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
08.07.2014, 21:10
Ответы с готовыми решениями:

abbyy finereader 8.0
Добрый день господа, принесли сегодня ноутбук, на нём abbyy finereader 8.0 professional edition удалена вот слово "криво"...

Лицензия для Abbyy Finereader 12
Привет всем. Такой вопрос. Установил Abbyy Finereader 12. Некоторое время все работало нормально, но потом стала появляться предупреждение...

Увеличить размер шрифта на всех страницах сразу в Abbyy FineReader 10
Здравствуйте , подскажите как можно увеличить размер шрифта на всех страницах сразу. Или можно используя настройки как-то это сделать , я...

7
26 / 19 / 2
Регистрация: 18.06.2013
Сообщений: 121
12.07.2014, 01:20
JohnyWalker

Вот тут выделяете всю страницу как надо, нажимаете сохранить шаблон
Потом выделяете все остальные и нажимаете применить шаблон
На нескольких страницах не пробовал, но на одной все сработало
2
200 / 87 / 9
Регистрация: 15.11.2010
Сообщений: 472
12.07.2014, 04:30  [ТС]
arhistratig13, спасибо за совет, я уже пробовал сделать все так, как Вы мне написали, делал по этой инструкции:

http://help.abbyy.com/FineRead... plates.htm .

Выделил всю поверхность всех страниц как текстовые области. Только вот книгу распознать у меня все равно не получилось. Распознались лишь некоторые надписи и заголовки в ней, отпечатанные крупным шрифтом. Когда стал разбираться, выяснилось следующее.

Все страницы в книге имеют слишком маленькое разрешение. При номинально заданных 600 dpi размер каждой страницы составляет приблизительно 1200x800 пикселей. Т. е, переводя это в сантиметры, получаем, что каждая страница имеет приблизительный размер 5 см x 3,5 см. Соответственно, каждая буква, каждый печатный символ книги состоит из слишком маленького числа пикселей, т. е. формально относится к крайне мелкому шрифту, что и вызывает трудности в распознавании такого текста, состоящего из букв, набранных очень мелким шрифтом. Хотя я вижу, что качество текста в книге хоть и низкое, но вполне достаточное для того, чтобы программа вроде FineReader'а смогла его распознать. Визуально, на глаз, текст воспринимается и никаких проблем при чтении не вызывает - он вполне читаемый.

Что посоветуете делать в такой ситуации?

Я уже стал думать о том, как бы мне увеличить размер каждой страницы, чтобы число пикселей по вертикали и по горизонтали у каждой страницы стало бОльшим. Одна идея заключалась в следующем. Переконвертировать djvu-файл в файлы jpeg, так чтобы из каждой страницы исходного djvu появился свой jpeg. Дальше каждый полученный jpeg можно было бы увеличить - применить к нему преобразование масштабирования - чтобы число пикселей по горизонтали и вертикали стало бОльшим. А дальше получившиеся новые jpeg-файлы собрать опять в один djvu или pdf-файл и распознать его FineReader'ом. Я уже стал искать утилиты командной строки из мира Linux, которые позволили бы сделать все это дело в пакетном режиме, чтобы с каждым файлом не возиться по отдельности. Стал смотреть djvulibre и прочая. Но с этим со всем все равно очень долго нужно разбираться, искать программки с интерфейсом командной строки, которые все это делают, читать документацию и man'ы по ним. Короче, очень много возни.

Вы не знаете способ, как все это можно сделать проще и быстрее? Не выполнять никаких преобразований в jpeg и обратно, не использовать никаких утилит командной строки для масштабирования (увеличения размера) jpeg-файлов, а решить эту задачу, не выходя из FineReader'а, FineReader'овскими же командами. Я такой опции, которая позволила бы пропорционально увеличить размер всех страниц, выполнить преобразование масштабирования, в меню FineReader'а не нашел. Может, она есть? Если есть - подскажите, пожалуйста, где она находится и как ей пользоваться, вкратце.

Или подскажите, как заставить FineReader в принудительном режиме распознавать такие картинки с низким разрешением и, как следствие, с мелким шрифтом букв без преобразования изображения в более высокое разрешение. Если, конечно, он способен распознать текст на таких картинках.

В общем, если есть какие-то хорошие решения моей проблемы - подскажите. Буду очень благодарен, а то я уже начинаю искать свои решения, но они слишком сложные и с ними будет очень много возни.

Добавлено через 5 минут
PS
Если хотите, я могу Вам даже прислать ссылку на книгу в личку.
0
Почетный модератор
Эксперт по компьютерным сетямЭксперт Windows
 Аватар для magirus
28049 / 15785 / 983
Регистрация: 15.09.2009
Сообщений: 67,752
Записей в блоге: 78
12.07.2014, 08:14
Цитата Сообщение от JohnyWalker Посмотреть сообщение
Что посоветуете делать в такой ситуации?
а дальше ручками батенька, ручками.... извини, немного утрировано, но из трех пикселей тебе букву никто не угадает.

Добавлено через 56 секунд
Цитата Сообщение от JohnyWalker Посмотреть сообщение
я вижу
это ты видишь.
0
26 / 19 / 2
Регистрация: 18.06.2013
Сообщений: 121
12.07.2014, 11:17
Цитата Сообщение от magirus Посмотреть сообщение
а дальше ручками батенька, ручками.... извини, немного утрировано, но из трех пикселей тебе букву никто не угадает.
полностью согласен...
к сожалению даже если увеличить механически разрешение, само разрешение сканирования останется прежним, можно все-таки попробовать увеличить, если уверенно буквы различимы
Цитата Сообщение от JohnyWalker Посмотреть сообщение
Дальше каждый полученный jpeg можно было бы увеличить - применить к нему преобразование масштабирования - чтобы число пикселей по горизонтали и вертикали стало бОльшим.
Но если чисто отвечая на вопрос о пакетном редактировании изображений - очень легко и просто это делает программка ACDSee Pro
Как это без извлечения jpg сделать не знаю...
1
26 / 19 / 2
Регистрация: 18.06.2013
Сообщений: 121
12.07.2014, 11:25
скрин где это в ACDSee
1
200 / 87 / 9
Регистрация: 15.11.2010
Сообщений: 472
13.07.2014, 14:51  [ТС]
Проблему в итоге удалось решить, причем средствами самого FineReader'а, не привлекая для этого какой-либо сторонний софт, графические редакторы и пакетную обработку файлов. Увеличивать размер изображений страниц тоже не пришлось, обошлось без этого.

А дело оказалось вот в чем. Изображения страниц в изначальном файле djvu с электронной книгой были действительно очень маленькие, как я и говорил, примерно 1200x800 при установленном якобы разрешении в 600 dpi. Таким образом геометрический размер страницы оказывался равным приблизительно 5 см x 3,5 см. При таком размере страницы шрифт символов, которыми был набран текст, оказывался в геометрическом измерении очень мелким, т. е. текст был как бы набран шрифтом с очень маленьким кеглем. Похоже, что программа FineReader изначально настроена таким образом, что буквы таких шрифтов она просто игнорирует, даже не пытается их проанализировать и распознать, рассматривая их как мусор и фон. Поэтому весь этот мелкий текст опознавался как картинка, и в форме картинки попадал в выходной документ, построенный FineReader'ом. Естественно, никаких распознанных букв эта картинка не содержала.

Выход заключался в том, чтобы формально изменить разрешение страниц с 600 dpi на более низкое, не трогая при этом и не изменяя само изображение. Тогда изображение оставалось в прежнем неизменном виде, количество пикселей по горизонтали и вертикали, занимаемых им, также оставалось прежним, однако чисто номинально геометрический размер изображения увеличивался. Оставаясь точно таким же в пиксельных единицах, в метрических единицах измерения (сантиметрах, дюймах и т. п.) формально оно становилось больше. Буквы текста при этом также формально увеличивались, шрифты приобретали нормальный общепринятый размер и уже не игнорировались FineReader'ом, а нормально распознавались.

Как я и писал, качество книжки довольно низкое, но вполне приемлемое для распознавания. Распозналось не очень хорошо, не достаточно уверенно, в тексте довольно много ошибок, но вполне удовлетворительно. Как я и писал, увеличивать изображения страниц в пикселях для этого не пришлось, хватило чисто формального трюка с разрешением в dpi. В исходной книге оно было установлено в 600 dpi для всех страниц, я же его установил в 100 dpi для всех страниц, т. е. номинально увеличил размер каждой страницы в 6 раз.

Добавлено через 31 минуту
Теперь краткое описание, как я это делал в FineReader'е. Вдруг пригодится кому-нибудь еще.

1. Загружаем в FineReader файл с нераспознанной электронной книгой.

2. Выбираем в меню программы пункт Страница -> Редактор изображений. Эта же опция обычно присутствует в панели инструментов в виде кнопки с подписью Редактировать. После выбора данной опции переходим в редактор изображений.

3. В колонке справа с различными инструментами и опциями редактирования находим пункт Разрешение изображения. Щелкаем мышкой по нему. Появляется список опций выбора разрешения следующего примерно вида:


Укажите разрешение изображения:
* 300 dpi (для отсканированных изображений)
* 200 dpi (для факсов)
* 96 dpi (для снимков экрана)
* Другое: XXX dpi


где XXX - конкретное разрешение текущей страницы вашего документа.

4. Выберите в данном списке опций вариант другое, в поле разрешение проставьте нужное вам значение. В моем случае изначально стояло 600 dpi, я его изменил на 100 dpi. Этим я номинально увеличил изображение в 6 раз.

5. Из списка опций Применить к:, расположенного чуть ниже, в котором предлагается на выбор применить изменение разрешения к Текущей странице, Нечетным страницам, Четным страницам, Всем страницам, выбрать вариант Все страницы.

6. Нажать на расположенную ниже кнопку Применить.

7. Появляется табличка с запросом подтверждения вида:

Предупрежение:
Страницы 1 - NNN будут изменены. Данную операцию невозможно отменить. Нажмите OK, чтобы продолжить.
OK Отмена


Нажимаем на ней кнопку OK, и запускается обработчик, автоматически меняющей разрешение всех страниц на выбранное нами. Работает он очень недолго, после завершения его работы для всех страниц электронной книги устанавливается новое разрешение.

Теперь можно приступать к распознаванию. Если текст имеет удовлетворительное качество и разборчив на глаз, то он будет нормально распознан. Главное при этом, чтобы буквы основного шрифта, которым набран текст, были нормального общепринятого размера (т. е. не были микроскопического размера).

Добавлено через 12 минут
PS
Не стал делать скриншоты, но думаю, что и без них по написанному разобраться будет несложно. Специально все расписал подробно. Делал все в версии Abby FineReader 12, для нее и составлено описание.
3
26 / 19 / 2
Регистрация: 18.06.2013
Сообщений: 121
13.07.2014, 16:21
JohnyWalker, круто! я думаю это довольно полезная тема, которая может помочь многим!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
13.07.2014, 16:21
Помогаю со студенческими работами здесь

Abbyy Finereader 10 в Windows 7!
не могу отсканировать документ на высокое разрешение, может какие настройки посоветуете. ОС-windows 7, машина - HP laserjet3052

Abbyy FineReader не видит принтер (сканер)
Всем привет! Вообщем проблема в следующем...в офисе имеются два принтера kyocera ecosys m2035dn, m2530dn, подключены по локалке, компьютер...

Кнопка для выгрузки в Word в ABBYY FineReader 11
Здравствуйте,уважаемые форумчане! Вопрос следующий: Нужно выгрузить в ворд,а еще лучше в эксель порядка полторы тысячи скринов. Каждый...

Выбор процессора для фотошоп и ABBYY FineReader
Комп проектируется для работы. Наиболее ресурсоемким представляется фотошоп и ABBYY FineReader. Игр не будет. Для сравнения я взял пять...

СРОЧНО Продам ABBYY FineReader 11 Professional Edition лицензия
Украина, г.Киев СРОЧНО Продам ABBYY FineReader 11 Pro с лицензией, не дорого!! Все наклейки на месте, диск и инструкция запечатаны....


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
Фото: Daniel Greenwood
kumehtar 13.11.2025
Расскажи мне о Мире, бродяга
kumehtar 12.11.2025
— Расскажи мне о Мире, бродяга, Ты же видел моря и метели. Как сменялись короны и стяги, Как эпохи стрелою летели. - Этот мир — это крылья и горы, Снег и пламя, любовь и тревоги, И бескрайние. . .
PowerShell Snippets
iNNOKENTIY21 11.11.2025
Модуль PowerShell 5. 1+ : Snippets. psm1 У меня модуль расположен в пользовательской папке модулей, по умолчанию: \Documents\WindowsPowerShell\Modules\Snippets\ А в самом низу файла-профиля. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru