|
0 / 0 / 0
Регистрация: 01.06.2019
Сообщений: 2
|
|
Конвертация текста из pdf файла в txt python21.07.2020, 14:31. Показов 2862. Ответов 5
Метки нет (Все метки)
Здравствуйте, pdf файл без сканов(изображений) хорошо конвертирует.
Собственно вопрос, как мне из моего файла, который забит сканами, получить текст и конвертнуть в txt файл, можете подсказать какие-то библиотеки или примеры для получение и конвертации текста с изображений сканов и последующей конвертации в txt файл ?
0
|
|
| 21.07.2020, 14:31 | |
|
Ответы с готовыми решениями:
5
Конвертация текста из pdf файла в текст Конвертация из pdf в txt Python 3.7 Конвертация PDF в DOCX |
|
0 / 0 / 0
Регистрация: 01.06.2019
Сообщений: 2
|
|
| 21.07.2020, 15:20 [ТС] | |
|
Я уже смотрю, но опять же не удобно очень из файла pdf сначала надо выгрузить картинки, а уже после получать текст, пока не нашёл решения для преобразование этого в рамках самого файла при конвертации
0
|
|
|
Модератор
|
|
| 21.07.2020, 15:24 | |
|
insooooo, не удобно какать вверх ногами. А как ты себе представляешь чтоб ты просто двумя командами выгрузил текст из картинки, которые еще дополнительно упакованы в pdf? Естественно тебе изначально надо выгрузить картинки, далее использовать готовые библиотеки(если они есть) или сервисы по преобразованию в текст, а далее записать полученные данные в файл.
1
|
|
|
|
||
| 21.07.2020, 15:33 | ||
|
Другая альтернатива - ABBYY FineReader Engine. Платный SDK - на сайте есть пример APi для С++. Есть ли для Python - непонятно. И это, пожалуй, все реальные возможности. Ну может быть еще какие-нить микросервисы с API.
1
|
||
| 21.07.2020, 20:09 | |
|
insooooo, В интернете полно ссылок на средства преобразования в txt как из pdf формата так и из сканов OCR с текстом в файлы txt.
Например вот https://www.pdf2go.com/ru/pdf-to-text Еще есть средство с использованием какого то Гугл диска, и много всего. Читайте интернет. А в общем то Garry Galler, Вам уже все рассказал.
0
|
|
| 21.07.2020, 20:09 | |
|
Помогаю со студенческими работами здесь
6
Не был произведен вызов CoInitialize. Или конвертация docx -> pdf в Python(Django) Конвертация текста *.doc в *.txt Конвертация файла chm в pdf Конвертация файла pptx в pdf без изменения качества картинок
Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
||||
|
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
|
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение.
И на уровне агентов добавится между грибами или бактериями взаимодействий.
До того я пробовал подход через многомерные массивы,. . .
|
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Налог на собак: https:/ / **********/ gallery/ V06K53e
Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf
Пост отсюда. . .
|
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop?
Ниже её машинный перевод.
После долгих разбирательств я наконец-то вернула себе. . .
|
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод
Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод.
Thinkpad X220 Tablet —. . .
|
|
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта
Симптом:
После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
|
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
|
Новый ноутбук
volvo 07.12.2025
Всем привет.
По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне:
Ryzen 5 7533HS
64 Gb DDR5
1Tb NVMe
16" Full HD Display
Win11 Pro
|
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
|
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
|