Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.60/15: Рейтинг темы: голосов - 15, средняя оценка - 4.60
4 / 4 / 2
Регистрация: 07.05.2014
Сообщений: 489

Поиск слова в документах на компьютере

02.08.2017, 11:06. Показов 2810. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Привет Всем, у меня есть задача: есть список слов, и их нужно найти во всех документах, которые есть на компьютере. Подскажите как стоит подойти к решению этой задачи. Может уже есть готовые библиотеки.
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
02.08.2017, 11:06
Ответы с готовыми решениями:

Поиск в документах Word
Здравствуйте. Имеет список папок, внутри word-документы. Необходимо реализовать поиск по слову внутри каждого документа, ну и вывести...

Поиск в документах по реквизиту
Здравствуйте. Такая проблема - нужно реквизит из одного документа приравнять другому, причём нужно найти главный реквизит, по которому...

Поиск в документах Word
Пример следующий: в документе есть блоки текста и имеются заголовки данных блоков. Задача такая что необходимо найти все заголовки...

1
757 / 306 / 190
Регистрация: 20.05.2016
Сообщений: 593
02.08.2017, 20:01
Лучший ответ Сообщение было отмечено Rodmistar как решение

Решение

В качестве примера два более-менее топорных варианта (один читает файл чанками, другой строками)

построчно

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
import os
import os.path
import fileinput
 
from itertools import repeat
from collections import defaultdict
from pprint import pprint
 
 
top = '.'
results = defaultdict(list)
 
patterns = ['matplot', 'mpmath']
include = ['.py', 'txt']
 
openhook = fileinput.hook_encoded("utf8")
selection = lambda file:  file.endswith(tuple(include))
 
 
def hook_encoded(encoding=None, errors='strict'):
    if encoding:
        def openhook(filename, mode):
            return open(filename, mode, encoding=encoding, errors=errors)
    
    else:
        from cchardet import UniversalDetector
        
        def openhook(filename, mode):
            with open(filename, 'rb') as file:
                detector = UniversalDetector()
                for line in file:
                    detector.feed(line)
                    if detector.done: break
                detector.close()
                encoding = detector.result['encoding'] or 'utf8'
                # print(detector.result, filename)
            return open(filename, mode, encoding=encoding, errors=errors)
    
    return openhook
 
openhook = hook_encoded(errors='ignore')
 
for path, dirs, files in os.walk(top):
    # files = (file for file in files if file.endswith(tuple(include)))
    files = filter(selection, files)
    files = map(os.path.join, repeat(path), files)
    
    with fileinput.input(files, openhook=openhook) as f:
        for line in f:
            for pattern in patterns:
                if pattern in line:
                    fnl = (f.filename(), f.filelineno(), line.rstrip())
                    results[pattern].append(fnl)
 
pprint(results)


покусочно

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
import os
import os.path
 
from itertools import repeat
from collections import defaultdict
from pprint import pprint
from cchardet import UniversalDetector
 
 
bufsize = 64 * 1024
 
top = '.'
results = defaultdict(list)
 
patterns = ['matplot', 'mpmath']
include = ['.py', 'txt']
 
selection = lambda file:  file.endswith(tuple(include))
 
 
def detect_encoding(filename):
    detector = UniversalDetector()
    with open(filename, 'rb') as file:
        for line in file:
            detector.feed(line)
            if detector.done: break
    detector.close()
    encoding = detector.result['encoding'] or 'utf8'
    # print(detector.result, filename)
    return encoding
 
 
for path, dirs, files in os.walk(top):
    # files = (file for file in files if file.endswith(tuple(include)))
    files = filter(selection, files)
    files = map(os.path.join, repeat(path), files)
    
    for filename in files:
        encoding = detect_encoding(filename)
        with open(filename, encoding=encoding, errors='ignore') as file:
            rightover = ''
            while True:
                buffer = file.read(bufsize)
                if not buffer:
                    break
                lines = buffer.split("\n")
                lines[0] = rightover + lines[0] 
                if len(buffer) == bufsize:
                    rightover = lines[-1]
                    del lines[-1]
                for lineno, line in enumerate(lines, 1):
                    for pattern in patterns:
                        if pattern in line:
                            fnl = (filename, lineno, line)
                            results[pattern].append(fnl)
                
pprint(results)


Цитата Сообщение от Rodmistar Посмотреть сообщение
найти во всех документах, которые есть на компьютере
кажется, не очень хорошая идея, даже для специальных утилит...

На PyPI в поле поиска введите чего-нибудь вроде grep, может и подберете что-нибудь подходящее...
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
02.08.2017, 20:01
Помогаю со студенческими работами здесь

Поиск в документах MS Word
Через день защита бакалавра. В программе требеутся осуществление поиска в документах MSWord. Как это сделать? Ответьте, пожалуйста,...

Поиск файлов в документах
Пишу программу, для неё нужен файл из файловой системы. Можно просто прописать путь, вы правы, это реализовать несложно, но хочется, чтобы...

Поиск таблиц в документах Word
Добрый вечер Необходимо программно скопировать из doc-файла таблицу в другой doc-файл. Есть какие-нибудь идеи как это можно сделать? ...

Поиск текста в документах MS Office
В общем есть библиотека документов,мне нужно организовать поиск текста по каждому документу и с возможностью подсчета совпадений...знаю что...

Как осуществить поиск в документах
Когда то у меня стоял Windows XP и там при поиске (стандартном) была такая опция поиск непосредственно В документах (текстовых), а в...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Символьное дифференцирование
igorrr37 13.02.2026
/ * Логарифм записывается как: (x-2)log(x^2+2) - означает логарифм (x^2+2) по основанию (x-2). Унарный минус обозначается как ! в-строка - входное арифметическое выражение в инфиксной(обычной). . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru