Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.85/13: Рейтинг темы: голосов - 13, средняя оценка - 4.85
2 / 2 / 0
Регистрация: 03.04.2022
Сообщений: 37

Нужен скрипт для поиска информации в pdf файлах

09.02.2023, 21:50. Показов 3910. Ответов 1

Студворк — интернет-сервис помощи студентам
Есть ли возможность создать скрипт, который бы искал в pdf файлах нужное слово, а потом писал страницу, где это слово находится.

Заранее огромное спасибо
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
09.02.2023, 21:50
Ответы с готовыми решениями:

Нужен скрипт для поиска по сайту.
Господа! Помогите найти скрипт поиска. Самому написать можно, но уже нет времени на это.....сроки поджимают :(( Может быть кто-нибудь...

Нужен скрипт или расширение для поиска ссылок на сайте Vk.com
Добрый день. Нужна ваша помощь. Зарание прошу прощение если не по адресу или уже была поднята такая тема. Нужен скрипт или программа...

Скрипт пакетного поиска и замены в MS-office файлах
Нужно обезличить десятки файлов офис (Excel, Word, PowerPoint) - заменить конкретные названия и фамилии на коды или кодовые названия. Таких...

1
 Аватар для anapshy
531 / 272 / 220
Регистрация: 14.11.2016
Сообщений: 1,052
10.02.2023, 16:20
Лучший ответ Сообщение было отмечено NeoKlip как решение

Решение

Code
1
pip install PyPDF2
Так же может потребоваться
Code
1
pip install pycryptodome
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
import PyPDF2
 
''' 
Функция поиска номеров страниц в PDF документах где встречается фраза
 
Принимает 2 аргумента:
    pdf_filenames: массив строк с именами pdf файлов.
    word: строку, которую нужно искать в pdf файлах.
 
Возвращает:
    Структуру map, где ключом является имя PDF файла,
     а значением множество set содержащее номера страниц pdf файла,
     где встречается слово word.
'''
def find_string_in_pdfs(pdf_filenames, line):
    result = {}
    for pdf_filename in pdf_filenames:
        try:
            with open(pdf_filename, "rb") as f:
                pdf_file = PyPDF2.PdfReader(f)
                pages = set()
                for page_num in range(len(pdf_file.pages)):
                    page = pdf_file.pages[page_num]
                    if line in page.extract_text():
                        pages.add(page_num)
                if (len(pages)):
                    result[pdf_filename] = pages
        # Исключение - Если файл не найден
        except FileNotFoundError:
            pass
    return result
 
 
''' Пример использования '''
pdf_filenames = ["ваш_документ1.pdf", "ваш_документ2.pdf", "ваш_документ3.pdf"] # или если 1 документ, то просто ["ваш_документ1.pdf"]
line = 'ваша фраза для поиска'
# Поиск строки в PDF документах
result = find_string_in_pdfs(pdf_filenames, line)
# Выводим результат, но прежде провряем на пустоту
if (len(result)):
    print('Слово [', line, '] встретилось в:')
    for pdf_filename, pages in result.items():
        print("--[", pdf_filename, "] на страницах:", pages)         
else:
    print('Ничего не найдено')
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
10.02.2023, 16:20
Помогаю со студенческими работами здесь

Нужен скрипт для поиска всех exe и составления списка папок,без самих файлов
Windows 10 Домашняя.Этот скрипт нужен чтобы составить список папок E:\ в которых находятся exe-шники,чтобы с помощью другого скрипта- все...

Скрипт поиска слов в любых файлах, в т.ч. docx, doc, xlsx, xls
#!/bin/sh ######################################################################################################################## #...

ПО для удаления водяных знаков в кирилических PDF файлах
Подскажите ПО для удаления водяных знаков в кирилических PDF файлах.

Бесплатная переводилка с английского для выделенных слов в файлах с текстовым слоем (pdf - обязательно)
Доброе утро! Какая есть программа для быстрого доступа к переводу отдельного слова на русский в Ubuntu с английского, чтобы можно было...

BAT-файл для вывода информации об исполняемых файлах
Помогите,. пожалуйста, с задачкой:boredom: Разработать пакетный файл для вывода информации в файл о всех имеющихся исполняемых файлах в...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru