Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.69/13: Рейтинг темы: голосов - 13, средняя оценка - 4.69
0 / 0 / 0
Регистрация: 01.06.2019
Сообщений: 2

Конвертация текста из pdf файла в txt python

21.07.2020, 14:31. Показов 2933. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте, pdf файл без сканов(изображений) хорошо конвертирует.
Собственно вопрос, как мне из моего файла, который забит сканами, получить текст и конвертнуть в txt файл, можете подсказать какие-то библиотеки или примеры для получение и конвертации текста с изображений сканов и последующей конвертации в txt файл ?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
21.07.2020, 14:31
Ответы с готовыми решениями:

Конвертация текста из pdf файла в текст
Кто то решал такую задачку ? есть файл в формате pdf нужно просто оттуда достать текст шрифты не нужны просто текст что то у...

Конвертация из pdf в txt
хотелось бы написать маленькую и простенькую программу, для конвертации из pdf файлов ( там где текст, а не сканы ) в txt. но даже не...

Python 3.7 Конвертация PDF в DOCX
Приветствую, друзья и коллеги! Нужна помощь. Возникла необходимость замены некоторых элементов текста в PDF документах. Знаю про...

5
Эксперт Python
 Аватар для dondublon
4653 / 2073 / 366
Регистрация: 17.03.2012
Сообщений: 10,183
Записей в блоге: 6
21.07.2020, 15:02
Распознавание текста? Задача нетривиальная.

Добавлено через 21 секунду
Гуглить OCR, если это то, что вам нужно.
1
0 / 0 / 0
Регистрация: 01.06.2019
Сообщений: 2
21.07.2020, 15:20  [ТС]
Я уже смотрю, но опять же не удобно очень из файла pdf сначала надо выгрузить картинки, а уже после получать текст, пока не нашёл решения для преобразование этого в рамках самого файла при конвертации
0
Модератор
Эксперт Python
 Аватар для Fudthhh
2696 / 1602 / 513
Регистрация: 21.02.2017
Сообщений: 4,210
Записей в блоге: 1
21.07.2020, 15:24
insooooo, не удобно какать вверх ногами. А как ты себе представляешь чтоб ты просто двумя командами выгрузил текст из картинки, которые еще дополнительно упакованы в pdf? Естественно тебе изначально надо выгрузить картинки, далее использовать готовые библиотеки(если они есть) или сервисы по преобразованию в текст, а далее записать полученные данные в файл.
1
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
21.07.2020, 15:33
Цитата Сообщение от insooooo Посмотреть сообщение
пока не нашёл решения
Для ocr существует tesseract - внешняя программа и всякие обертки вокруг ее CLI.
Другая альтернатива - ABBYY FineReader Engine. Платный SDK - на сайте есть пример APi для С++. Есть ли для Python - непонятно.
И это, пожалуй, все реальные возможности.
Ну может быть еще какие-нить микросервисы с API.
1
1732 / 970 / 199
Регистрация: 22.02.2018
Сообщений: 2,693
Записей в блоге: 6
21.07.2020, 20:09
insooooo, В интернете полно ссылок на средства преобразования в txt как из pdf формата так и из сканов OCR с текстом в файлы txt.
Например вот
https://www.pdf2go.com/ru/pdf-to-text
Еще есть средство с использованием какого то Гугл диска, и много всего. Читайте интернет.
А в общем то Garry Galler, Вам уже все рассказал.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
21.07.2020, 20:09
Помогаю со студенческими работами здесь

Не был произведен вызов CoInitialize. Или конвертация docx -> pdf в Python(Django)
Добрый день, уважаемые форумчане. Делаю проект на Django, если вкратце - по заполненной пользователем форме формируется файл .docx. Но...

Конвертация текста *.doc в *.txt
У меня вот такая проблема. Надо извлечь текст из документа MS Word и затем записать его в текстовый файл *.txt. Как бы саму эту задачу,я...

Конвертация файла chm в pdf
Здравствуйте! Подскажите пожалуйста, как конвертировать chm в pdf. Прошу прощения что не тот раздел, прошу модератора перенаправить в...

Конвертация файла pptx в pdf без изменения качества картинок
Здравствуйте! Подскажите пожалуйста как можно конвертировать файл pptx в pdf без изменения качества картинок?

Конвертация txt файла в HTML
Есть txt файл, который был сгенерирован скриптом. Можно ли как-то переконвертировать этот файл в HTML со всем форматированием? (txt...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
Горе от ума
kumehtar 07.04.2026
Эта мне ментальная установка, что вот прямо сейчас, мол, мне для полного счастья не хватает (нужное вписать), и когда я этого достигну - тогда и полный кайф. Одна из самых сильных ловушек на пути. . . .
Использование значений реквизитов справочника в документе, с определенными условиями и правами
Maks 07.04.2026
1. Контроль срока действия договора Алгоритм из решения ниже реализован на примере нетипового документа "ЗаявкаНаРаботу", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru