0 / 0 / 0
Регистрация: 11.10.2021
Сообщений: 3
1
Windows

Распознать несколько миллионов страниц

11.10.2021, 14:41. Показов 928. Ответов 16
Метки ocr (Все метки)

Доброго дня! Сам не являюсь специалистом в ИТ, но местные специалисты, к сожалению, тоже в замешательстве. Стоит задача распознать несколько миллионов страниц отсканированных изображений (всего около 10 000 000 страниц в 1 500 000 файлах).
Понятно, что "первый выбор" был Acrobat DC Pro, у которого есть функций пакетной конвертации и не дорого (25 баксов в месяц).
Но на машине с core i7-4790К 16гб ОЗУ SSD стреднее время обработки одной страницы составило 2 секунды. Понятно, что такими темпами результат мы получим через 4-5 месяцев.
Однако запуск на серверной машине тоже не дал эффекта - дело в том, что как акробат так и Fine Reader не умеют занимать не только несколько процессоров - он не может нагружать даже несколько ядер. Проверил Process Explorerom - загружено только одно ядро. Попытка загрузить несколько копий успехом не увенчалась - старая копия остановилась полностью, когда стала работать новая.
По этому версия аренды Windows-servera на несколько дней у кого-то из мощных площадок (Azure или вообще IBM с из 96-ядерными dedicated-серверами) отпала - все равно нет многопоточности.
Вопрос: какое может быть применено решение в такой ситуации?
__________________
Помощь в написании контрольных, курсовых и дипломных работ, диссертаций здесь
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
11.10.2021, 14:41
Ответы с готовыми решениями:

Как просмотреть результат работы программы в консоли, если строк вывода несколько миллионов?
Консоль показывает последние 300-400 строчек, а результат больше 2-х млн, как просмотреть полный...

Прочесть и обработать текстовый файл "log.txt" в котором несколько миллионов строк
Здравствуйте, уважаемые форумчане! Необходимо прочесть и обработать текстовый файл "log.txt" в...

Несколько страниц
Можно ли сделать, чтобы таблица которая у меня есть в html файле на одной странице в браузере...

несколько страниц
Вопрос глупый, но я ничего не могу найти. На главной странице приложения есть три кнопки, как...

16
Эксперт .NET
10713 / 7458 / 1166
Регистрация: 21.01.2016
Сообщений: 28,235
11.10.2021, 14:47 2
dima_io, вам нужно с таким вопросом обратиться в Abby. У них была система для массовых распознаваний, с масштабированием горизонтальным, хоть на сотню машин.
0
0 / 0 / 0
Регистрация: 11.10.2021
Сообщений: 3
11.10.2021, 14:52  [ТС] 3
Предполагаю, что Abby за такое захочет больше, чем мы потянем) Бюджет, конечно же, есть. Но если бы было решение с OCR и многопоточностью готовое то было бы, конечно, удобнее)
0
Эксперт .NET
10713 / 7458 / 1166
Регистрация: 21.01.2016
Сообщений: 28,235
11.10.2021, 15:10 4
dima_io, не надо предполагать, надо просто связаться с их манагерами и спросить.
0
0 / 0 / 0
Регистрация: 11.10.2021
Сообщений: 3
11.10.2021, 15:14  [ТС] 5
Спасибо, написал. Подождем.
Но все же интересно, неужели никаких других OCR-решений, способных работать в многопоточной среде так и нету.
0
Эксперт .NET
10713 / 7458 / 1166
Регистрация: 21.01.2016
Сообщений: 28,235
11.10.2021, 15:15 6
dima_io, а предложенный вариант чем не устраивает?
0
21 / 37 / 4
Регистрация: 17.01.2021
Сообщений: 288
21.04.2022, 18:46 7
dima_io, вам нужно с таким вопросом обратиться в Abby. У них была система для массовых распознаваний, с масштабированием горизонтальным, хоть на сотню машин.
Очень нерасторопная контора эта ваша Abbyy. Повадились работать только с корпоративным крупнячком и забурели, так что на запросы мелких клиентов иной раз даже не отвечают

Но все же интересно, неужели никаких других OCR-решений, способных работать в многопоточной среде так и нету.
Convertio.co не спрашивали про ценник, чтоб сравнить?

Сейчас даже на Гитхабе есть какие-то бесплатные OCR проекты
0
21 / 37 / 4
Регистрация: 17.01.2021
Сообщений: 288
22.04.2022, 08:19 8
Цитата Сообщение от dima_io Посмотреть сообщение
Но все же интересно, неужели никаких других OCR-решений, способных работать в многопоточной среде так и нету.
https://github.com/kba/awesome-ocr#ocr-engines=
https://github.com/tesseract-ocr/tesseract
0
13 / 79 / 9
Регистрация: 26.06.2013
Сообщений: 3,957
22.04.2022, 21:11 9
У меня был опыт распознавания более 500 тысяч страниц автоматизацией Finereader 8 на старом компьютере в Windows Xp за несколько месяцев.
Finereader 9 тоже пробовал приспособить, только он плохо автоматизируется и насчет более поздних версий не уверен, что качество обработки будет выше.
Если обрабатываются не файлы, а отдельные изображения, то может подойти CuneiForm. Этой программой обрабатывал большое количество авторских свидетельств (патентов) СССР по некоторым тематикам.
0
21 / 37 / 4
Регистрация: 17.01.2021
Сообщений: 288
23.04.2022, 15:59 10
Цитата Сообщение от supmener Посмотреть сообщение
Если обрабатываются не файлы, а отдельные изображения, то может подойти CuneiForm.
Проект CuneiForm вроде как уже умер и не поддерживается. Он ведь бесплатный был, чисто на энтузиазме.
Последний Stable Release - 10 лет назад, в 2011 году
0
13 / 79 / 9
Регистрация: 26.06.2013
Сообщений: 3,957
23.04.2022, 16:14 11
Применял последний релиз в Windows XP.
0
Эксперт .NET
10713 / 7458 / 1166
Регистрация: 21.01.2016
Сообщений: 28,235
25.04.2022, 09:46 12
Цитата Сообщение от supmener Посмотреть сообщение
Finereader 9 тоже пробовал приспособить, только он плохо автоматизируется
Что значит "плохо"? Отлично он автоматизируется. Есть же Finereader Engine. Там целая система огранизуется разспределённая, как раз для массовой параллельной обработки огромных архивов.
0
13 / 79 / 9
Регистрация: 26.06.2013
Сообщений: 3,957
25.04.2022, 12:01 13
Опыт был с автоматизацией Finereader 9 pro. Что-то не понравилось, сейчас уже не помню, что именно.
0
Эксперт .NET
10713 / 7458 / 1166
Регистрация: 21.01.2016
Сообщений: 28,235
25.04.2022, 13:36 14
supmener, скорее всего вам просто не хватило опыта. Штука эта реально навороченная. Правда за деньги. Но тем, кто такие объёмя сканирует, не проблема заплатить.
0
21 / 37 / 4
Регистрация: 17.01.2021
Сообщений: 288
25.04.2022, 23:00 15
nidaba - An expandable and scalable OCR pipeline
https://github.com/OpenPhilology/nidaba

Добавлено через 5 минут
Цитата Сообщение от Usaga
Что значит "плохо"? Отлично он автоматизируется. Есть же Finereader Engine. Там целая система огранизуется разспределённая, как раз для массовой параллельной обработки огромных архивов.
А Вы не знакомы с системой FlexiCapture у Abbyy?
https://www.abbyy.com/flexicapture/

Интересно узнать про реальные практические кейсы использования системы, кроме как для сканирования и распознавания счетов
0
Эксперт .NET
10713 / 7458 / 1166
Регистрация: 21.01.2016
Сообщений: 28,235
25.04.2022, 23:12 16
Цитата Сообщение от Novosedoff Посмотреть сообщение
А Вы не знакомы с системой FlexiCapture у Abbyy?
Не довелось сталкиваться)
0
529 / 178 / 38
Регистрация: 18.08.2012
Сообщений: 875
11.05.2022, 18:24 17
как насчёт присоединиться к моей группе коллективного распознавания сканрипов?
вместе, даже мануал в 1000 страниц - можно осилить за час (при достаточном количестве участников)

https://vk.com/ocr_coworking
0
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
11.05.2022, 18:24
Помогаю со студенческими работами здесь

Несколько страниц в одной
Доброй ночи, нужна помощь. Имеется сылка и еще сылка, они имеют одинаковое название, но разное...

Несколько страниц записей
Как сделать несколько страниц записей? Сейчас страница записей только одна FIFA Как сделать еще...

Несколько страниц WPF
Доброго времени суток, я начинающий в WPF, хотел бы посоветоваться и узнать где узнать и как лучше...

Разбить отчет на несколько страниц
На основе запроса сформирован отчет в виде договора. Все поля работают, данные выводят. Порезала...

Несколько страниц не попадает в индекс
Добрый день. Скажите, почему в индекс Яндекса непопадает несколько важных страниц? ...

Несколько страниц в одном файле
Недавно смотрел сайт Европы Плюс и обратил внимание на адреса страниц: ...

Не открывается несколько страниц на сайте!?
На моем сайте не открывается несколько внутренних страниц, но не могу понять почему!? Пишет "Не...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
17
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2022, CyberForum.ru