С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.69/13: Рейтинг темы: голосов - 13, средняя оценка - 4.69
0 / 0 / 0
Регистрация: 01.06.2019
Сообщений: 2

Конвертация текста из pdf файла в txt python

21.07.2020, 14:31. Показов 2862. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте, pdf файл без сканов(изображений) хорошо конвертирует.
Собственно вопрос, как мне из моего файла, который забит сканами, получить текст и конвертнуть в txt файл, можете подсказать какие-то библиотеки или примеры для получение и конвертации текста с изображений сканов и последующей конвертации в txt файл ?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
21.07.2020, 14:31
Ответы с готовыми решениями:

Конвертация текста из pdf файла в текст
Кто то решал такую задачку ? есть файл в формате pdf нужно просто оттуда достать текст шрифты не нужны просто текст что то у...

Конвертация из pdf в txt
хотелось бы написать маленькую и простенькую программу, для конвертации из pdf файлов ( там где текст, а не сканы ) в txt. но даже не...

Python 3.7 Конвертация PDF в DOCX
Приветствую, друзья и коллеги! Нужна помощь. Возникла необходимость замены некоторых элементов текста в PDF документах. Знаю про...

5
Эксперт Python
 Аватар для dondublon
4652 / 2072 / 366
Регистрация: 17.03.2012
Сообщений: 10,182
Записей в блоге: 6
21.07.2020, 15:02
Распознавание текста? Задача нетривиальная.

Добавлено через 21 секунду
Гуглить OCR, если это то, что вам нужно.
1
0 / 0 / 0
Регистрация: 01.06.2019
Сообщений: 2
21.07.2020, 15:20  [ТС]
Я уже смотрю, но опять же не удобно очень из файла pdf сначала надо выгрузить картинки, а уже после получать текст, пока не нашёл решения для преобразование этого в рамках самого файла при конвертации
0
Модератор
Эксперт Python
 Аватар для Fudthhh
2695 / 1601 / 513
Регистрация: 21.02.2017
Сообщений: 4,210
Записей в блоге: 1
21.07.2020, 15:24
insooooo, не удобно какать вверх ногами. А как ты себе представляешь чтоб ты просто двумя командами выгрузил текст из картинки, которые еще дополнительно упакованы в pdf? Естественно тебе изначально надо выгрузить картинки, далее использовать готовые библиотеки(если они есть) или сервисы по преобразованию в текст, а далее записать полученные данные в файл.
1
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
21.07.2020, 15:33
Цитата Сообщение от insooooo Посмотреть сообщение
пока не нашёл решения
Для ocr существует tesseract - внешняя программа и всякие обертки вокруг ее CLI.
Другая альтернатива - ABBYY FineReader Engine. Платный SDK - на сайте есть пример APi для С++. Есть ли для Python - непонятно.
И это, пожалуй, все реальные возможности.
Ну может быть еще какие-нить микросервисы с API.
1
1732 / 970 / 199
Регистрация: 22.02.2018
Сообщений: 2,693
Записей в блоге: 6
21.07.2020, 20:09
insooooo, В интернете полно ссылок на средства преобразования в txt как из pdf формата так и из сканов OCR с текстом в файлы txt.
Например вот
https://www.pdf2go.com/ru/pdf-to-text
Еще есть средство с использованием какого то Гугл диска, и много всего. Читайте интернет.
А в общем то Garry Galler, Вам уже все рассказал.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
21.07.2020, 20:09
Помогаю со студенческими работами здесь

Не был произведен вызов CoInitialize. Или конвертация docx -> pdf в Python(Django)
Добрый день, уважаемые форумчане. Делаю проект на Django, если вкратце - по заполненной пользователем форме формируется файл .docx. Но...

Конвертация текста *.doc в *.txt
У меня вот такая проблема. Надо извлечь текст из документа MS Word и затем записать его в текстовый файл *.txt. Как бы саму эту задачу,я...

Конвертация файла chm в pdf
Здравствуйте! Подскажите пожалуйста, как конвертировать chm в pdf. Прошу прощения что не тот раздел, прошу модератора перенаправить в...

Конвертация файла pptx в pdf без изменения качества картинок
Здравствуйте! Подскажите пожалуйста как можно конвертировать файл pptx в pdf без изменения качества картинок?

Конвертация txt файла в HTML
Есть txt файл, который был сгенерирован скриптом. Можно ли как-то переконвертировать этот файл в HTML со всем форматированием? (txt...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru