Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.69/13: Рейтинг темы: голосов - 13, средняя оценка - 4.69
0 / 0 / 0
Регистрация: 08.03.2021
Сообщений: 22

Загрузить сразу 2000 файлов

12.03.2021, 12:54. Показов 2827. Ответов 8
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте, у меня не получается сделать, сможете подсказать пожалуйста.


есть папка в ней имеется 2000 txt файлов, с этих txt файлах я ищу совпадения.
на данный момент это долго. т.к. открытия в питено занимает время. можно ли их сразу открыть? и полученный результат искать в одном из открытых 2000 txt файлах. избежать


поиск происходит таким методом
Python
1
2
3
filename = "adr/{reco}.txt".format(reco=put)
    with open(filename, encoding='ANSI') as f:
         if game in f.read():

мне известно переменная put для поиска в определенном файле. и известно переменная game что ищем

Заранее благодарен.


П.С. не получается загрузить заранее 2000 файлом и как мне искать в заранее открытых файлах.
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
12.03.2021, 12:54
Ответы с готовыми решениями:

OpenDialog: как открыть и загрузить в Memo несколько файлов сразу?
Здраствуйте как открыть и загрузить в мемо несколько файлов за 1 клик

Как загрузить Windows 2000/XP с CDROM?
Подскажите, пожалуйста, возможно ли загрузить Win2k/XP с CDROM и что для этого нужно напимать в boot.ini

Загрузить файл в 2 места сразу
Как можно загрузить файл в 2 места сразу? вот код для одного места загрузки: <?php $uploaddir = 'upload/'; if...

8
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
12.03.2021, 14:05
Цитата Сообщение от bambolbi0 Посмотреть сообщение
т.к. открытия в питено занимает время
Открытие файла не занимает сколько нибудь ощутимого тобой времени. Это мгновенно.
Время чтения зависит от объема файла и производительности твоего диска. Но если файл не больше 100 Mb - это меньше секунды.

Цитата Сообщение от bambolbi0 Посмотреть сообщение
не получается загрузить заранее 2000 файлом
Ты уверен, что у тебя хватит оперативы на все эти файлы прочитанные в ОЗУ?

Добавлено через 1 минуту
Цитата Сообщение от bambolbi0 Посмотреть сообщение
if game in f.read():
Молодца. Всегда так ищи, но потом не говори, что Python тормоз.
Искать нужно с помощью регулярных выражений или функции find.
2
Костыли любой сложности
201 / 146 / 36
Регистрация: 27.10.2019
Сообщений: 843
12.03.2021, 14:16
bambolbi0, есть альтернативный вариант,- поместить все файлы в базу данных и поиск делать по ней
1
Эксперт Python
 Аватар для dondublon
4652 / 2072 / 366
Регистрация: 17.03.2012
Сообщений: 10,182
Записей в блоге: 6
12.03.2021, 17:29
bambolbi0, можно распараллелить. muptiprocessing.Pool.
1
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
12.03.2021, 20:03
Лучший ответ Сообщение было отмечено u235 как решение

Решение

...Н-да.... мультипроцессы, БД... никто не умеет с асинхронкой работать? Тоже мне питонисты....
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
import time,os
import asyncio
import aiofiles
 
 
async def worker(path):    
    encoding = "utf-8" 
    while True:
        try:
            async with aiofiles.open(path, encoding=encoding) as f:
                contents = await f.read() 
                result = path, contents.find("game") != -1
                break
        except Exception as err:
            if encoding == "utf-8":
                encoding = "windows-1251" 
            else:
                encoding= "utf-8"
                      
    return result          
    
 
async def main(dirpath):
    tasks = [] 
    
    for i in range(50): #  это чтобы набрать примерно 2000 тасков  - столько текстовых файлов у меня тупо нет
        for path in os.listdir(dirpath):
            if not path.endswith(".txt"):
                continue
            path = os.path.join(dirpath, path) 
            tasks.append(asyncio.create_task(worker(path)))
            
    print(f"{len(tasks)} файлов")    
    
    #completed, pending = await asyncio.wait(tasks)
    # итерация по завершенным результатам
    #for item in completed:
    #    try:
    #        data = item.result()
    #        print(data)
    #    except :
    #        print("Unexpected error: {}".format(traceback.format_exc()))    
    
    # итерация по заданиям не ожидая завершения всех
    for task in asyncio.as_completed(tasks):
        data = await task 
        print(data)
    
        
if __name__ == "__main__":
    dirpath = r"en"
    start = time.time()
    asyncio.run(main(dirpath))    
    print(time.time() - start)
Code
1
2
1900 файлов
14.950855016708374
15 сек на очень небыстром sata диске. Файлы от 100 kb до 2 mb. ОЗУ такой код естественно, кушает, а что вы хотели при параллельном чтении файлов, но она очень быстро сбрасывается до приемлемого уровня.

Добавлено через 32 минуты
А вот вам второй вариант того же воркера, только здесь используется для чтения либа aiofile, откуда нужно импортировать AIOFile. Она работает на POSIX AIO и выполняет код еще быстрее - за 10 секунд (у вас может быть еще быстрее).

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
async def worker2(path):    
    encoding = "utf-8" 
    while True:
        try:
            async with AIOFile(path, encoding=encoding) as f:
                contents = await f.read() 
                result = path, contents.find("game") != -1
                break
        except Exception as err:
            if encoding == "utf-8":   # шаманства  с кодировкой потому что у меня файлы либо в той, либо в другой
                encoding = "windows-1251" 
            else:
                encoding= "utf-8"
                      
    return result
6
5516 / 2869 / 571
Регистрация: 07.11.2019
Сообщений: 4,759
12.03.2021, 20:11
Garry Galler, а обычный grep можете проверить, ради интереса?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
12.03.2021, 21:17
Я немного затупил с кодировками. Поиск по файлу можно ведь производить и в бинарном режиме.
В этом случае обе библиотеки отрабатывают секунд за 5-6.

Python
1
2
3
4
5
6
7
async def worker(path):    
    
    async with aiofiles.open(path, "rb") as f:
      contents = await f.read() 
      result = path, contents.find(b"game") != -1
  
    return result


u235,
очевидно, что дольше.
линукса у меня под рукой нет (а на вирт ставить лень), поэтому grep виндовый портированный:
Windows Batch file
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
@echo off
cd /d "%~dp0"
echo %cd%
 
set begin=%time%
 
for /l %%i in (1,1,50) do (
    for  %%i in (*.txt) do (
       Rem выводим имя файла:номер строки:совпадение
        grep game -o -n -H "%%i"
    )    
)
 
echo "Begin : %begin%"
echo "Finish: %time%"
pause
Code
1
2
"Begin : 21:02:08,89"
"Finish: 21:03:34,85"
То есть 26 секунд.
Нет, конечно, если и его распараллелить, то будет быстрее, но я не знаю есть ли в bash утиль для этого. На виндовом cmd такого точно нет. Если, конечно, забыть про powershell (там то все есть).

Добавлено через 12 минут
P.S. Я понимаю, что знатоки bash и grep меня щас закидают яйцами и скажут, что можно и по-другому поиск запустить, чтобы было эффективнее. OK. Я не знаток bash и grep - накидал как умею, тем более что это на винде.
1
5516 / 2869 / 571
Регистрация: 07.11.2019
Сообщений: 4,759
12.03.2021, 21:26
Garry Galler, ясно, спасибо за информацию.
А вот так, без for, может быстрее будет?
Code
1
grep -rn "game" *.txt
Цитата Сообщение от Garry Galler Посмотреть сообщение
bash утиль для этого
да, GNU parallel.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
12.03.2021, 21:34
Цитата Сообщение от u235 Посмотреть сообщение
А вот так, без for, может быстрее будет?
У меня нету 2000 файлов .txt в каталоге :-) Поэтому и цикл для повтора.
А так, да должно быть быстрее, так как grep сам список файлов составит.

P.S. Я там написал что 26 секунд и не заметил, что на самом деле 1 минута 26 сек..

-----------------------
grep -rn "game" *.txt: такой вариант чего-то на винде не хочет работать.

Добавлено через 6 минут
А ну да, подстановка то wildcards не работает. А на линуксе ее сам bash выполняет, а cmd не умеет.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
12.03.2021, 21:34
Помогаю со студенческими работами здесь

Как загрузить сразу несколько фотографий с сервера?
Добрый день!Этот код, который скачивает по ссылке одно изображение, можно ли сделать так, чтобы по ссылке загружались все изображения...

Как загрузить bin-файл из ресурсов, сразу в массив байт?
Сколько не прочел тем из поисковиков, везде предлагается через файловый поток загружать файлы. Вобщем прога уже была почти написана, эти...

Можно ли загрузить сразу через ftp всё альбомы, а потом уже как-то их проиндексировать?
Допустим мы пишем архив mp3 файлов, в частности музыка по исполнителям... Допустим есть уже готовых несколько альбома песен, которые нужно...

Как правильно загрузить данные для select что бы сразу же отображались когда они пришли с сервера?
Подскажите пожалуйста как решить эту проблему, у меня есть select данные для которого приходят из API и записываются в redux state, от туда...

Замена даты в колонтитулах 2000 файлов ворд
Всем привет! У меня такая задача: есть около 2000 файлов ворд. В верхнем и нижнем колонтитулах стоят разные даты: дата сертификации, дата...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
Символьное дифференцирование
igorrr37 13.02.2026
/ * Логарифм записывается как: (x-2)log(x^2+2) - означает логарифм (x^2+2) по основанию (x-2). Унарный минус обозначается как ! */ #include <iostream> #include <stack> #include <cctype>. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru