С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.68/40: Рейтинг темы: голосов - 40, средняя оценка - 4.68
2 / 2 / 0
Регистрация: 09.02.2015
Сообщений: 32

Чтение огромного файла

09.01.2018, 14:59. Показов 8162. Ответов 8
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Требуется прочитать текстовый файл построчно с размером 800 мб (будет увеличиваться). 20 миллионов строк.
Python
1
2
3
with open(path, "r") as file:
            for line in file:
#Обработка строки
Реализовал это так, но делается это слишком долго! Примерно такое же построчное чтение сделал и на c#, но в разы быстрее выходит.
Может кто-нибудь подсказать способ это сделать?
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
09.01.2018, 14:59
Ответы с готовыми решениями:

Чтение огромного текстового файла
Добрый день, скажите, как можно очень быстро прочитать текстовый файл? Нашёл код на stackoverflow, где используется построковое чтение и...

Сортировка огромного файла
Задание звучит так: Не представляю как гигабайт сортировать... Нужно ж ещё и не долго желательно Пока что надумал вот что:...

удаление строки из огромного файла
Имеем большой файл, гигабайтов на 5 или больше. Имеем не очень мощный компьютер. Задача: удалить первую строку из файла... Если будем...

8
3258 / 2060 / 351
Регистрация: 24.11.2012
Сообщений: 4,909
09.01.2018, 15:13
Что именно тормозит? Чтение или обработка? Сначала локализовать, потом думать, что делать.

Можно приложить полный код для воспроизведения на питоне и на шарпе. И если медленно выполняется именно обработка, то будет полезен скрипт генерации большого файла или хотя бы пример строки.
0
2 / 2 / 0
Регистрация: 09.02.2015
Сообщений: 32
09.01.2018, 16:34  [ТС]
Пример строки:
SPFB.SBRF,20170920,215127,18989.00000000 0,1

Обработка на питоне:
Python
1
2
3
list = line.split(",")
                if len(list) == 5:
trades.append(Trade(float(list[3]), int(list[4]), int(list[1][:4]), int(list[1][4:6]), int(list[1][6:]), int(list[2][:2]), int(list[2][2:4]), int(list[2][4:])))
На шарпе подобное, но уже не найду

Добавлено через 10 минут
Сам класс Trade выглядит так:
Python
1
2
3
4
5
6
class Trade:
    """description of class"""
    def __init__(self, price:float, volume:int, year:int, month:int, day:int, hour:int, minute:int, second:int):
        self.price = price
        self.volume = volume
        self.time = datetime(year, month, day, hour, minute, second)
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
10.01.2018, 01:52
Golemtata,
Ну и зачем вы построчно все делаете?
Опишите логику обработки строки в регулярном выражении.
Если у вас нет столько ОЗУ, чтобы читать весь файл в память - используйте mmap.

Добавлено через 7 часов 56 минут
Цитата Сообщение от Golemtata Посмотреть сообщение
но делается это слишком долго!
Приведите конкретные цифры - по моим прикидкам (исходя из теста на файле в 300 mb) ваш код должен отрабатывать за несколько минут (2-3 в зависимости от CPU\IO). Если это - медленно, то оптимизировать до секунд тут не получится. Если, конечно, не придумывать сложные схемы распараллеливания. В C#, да это просто - LINQ и его методы - и очень быстро.
Но C# - статически типизированный язык, и удивляться тут нечему.
К тому же в python коде, который вы привели, примерно 25% времени тратится на преобразования в int\float.
И так как эти преобразования важны - выкинуть их нельзя.
----------------------------------------------------------
mmap (метод из python библиотеки mmap) по моим тестам, увы, в данном случае не прибавляет ни скорости, ни даже экономии памяти.
Вам нужно работать со строками, а в mmap более подходящее решение для работы с байтовыми срезами больших файлов.
Немного лучше работает вариант с генератором, но опять же на разных файлах с разным объемом строк, содержащих нужный набор данных, он может быть эквивалентен вашему варианту чтения и обработки.
Попробуйте замерить этот вариант и сравнить скорость с вашим. Возможно, разницы вообще не будет.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
import re
 
pattern = re.compile('''
    [a-z.]+,           # какой-то бред
    (?P<year>\d{4})    # ищем год
    (?P<month>\d{2})   # ищем месяц
    (?P<day>\d{2}),    # ищем день
    (?P<hour>\d{2})    # часы
    (?P<minute>\d{2})  # минуты
    (?P<second>\d{2}), # секунды
    (?P<num1>\d+\.\d)  # еще какое-то число
    \d+,               # пропускаем
    (?P<num2>\d+)      # еще какое-то число
    .*$                # остальное - в топку
    ''',        
     re.I|re.M|re.X    # игнорируем регистр букв, пробелы в рег. выражении и ставим multiline режим
    )
 
 
def read_regex_gen():
    """построчное чтение через генератор и поиск по regex"""
    trades = []
    for line in read_line():
        m = pattern.search(line)
        if m:
            try:
                trades.append([
                    float(m.group('num1')),
                    int(m.group('num2')),
                    int(m.group('year')),
                    int(m.group('month')),
                    int(m.group('day')),
                    int(m.group('hour')),
                    int(m.group('minute')),
                    int(m.group('second')),
                ])
            except Exception:
                pass
    return len(trades) # возвращаем для теста только число найденных строк
P.S. На файле в 270 mb этот код отрабатывает за ~19 сек. Код аналогичный вашему - то есть без regex - примерно ~35 сек.
P.P.S. CPU\IO на тестовом компе очень фиговые.

Добавлено через 1 час 9 минут
правка
0
23 / 23 / 14
Регистрация: 01.05.2015
Сообщений: 180
10.01.2018, 04:36
А если читать файл не питоном, а седом? Он по умолчанию читает построчно и никаких проблем с регулярными выражениями нет.
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
10.01.2018, 05:56
Цитата Сообщение от ampermetr Посмотреть сообщение
А если читать файл не питоном, а седом? Он по умолчанию читает построчно и никаких проблем с регулярными выражениями нет.
а в лист трейдов потом как это? проблема-то не в том, чтобы считать, а чтобы потом с этим что-то сделать, насколько я понимаю.

Добавлено через 1 минуту
Golemtata, а вы их в лист собираете с какой целью, что дальше будет происходить с листом в 20 миллионов элементов? Это ведь тоже несколько гигов в памяти.

по поводу файла - может есть смысл ротировать файл?
0
Эксперт Python
 Аватар для dondublon
4652 / 2072 / 366
Регистрация: 17.03.2012
Сообщений: 10,181
Записей в блоге: 6
10.01.2018, 12:47
Попробуйте pandas.
Ну или numpy, но он со строками не очень красиво работает.

Цитата Сообщение от Jabbson Посмотреть сообщение
Golemtata, а вы их в лист собираете с какой целью, что дальше будет происходить с листом в 20 миллионов элементов? Это ведь тоже несколько гигов в памяти.
Тоже резонно. На таких объёмах уже надо БД юзать.
1
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
10.01.2018, 13:22
update поста
После правки (ночь, улица, фонарь, аптека :-)) вставил не от код - должно быть без генератора, только с регулярками. Именно он и имелся ввиду как чуть более быстрый.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
def read_regex_gen():
    """построчное чтение и поиск по regex"""
    trades = []
    for line in open(filepath,encoding="utf-8"):
        m = pattern.search(line)
        if m:
            try:
                trades.append([
                    float(m.group('num1')),
                    int(m.group('num2')),
                    int(m.group('year')),
                    int(m.group('month')),
                    int(m.group('day')),
                    int(m.group('hour')),
                    int(m.group('minute')),
                    int(m.group('second')),
                ])
            except Exception:
                pass
    return trades
P.S. Комментарии о переходе на БД поддерживаю.
0
23 / 23 / 14
Регистрация: 01.05.2015
Сообщений: 180
10.01.2018, 14:47
Ну я понял задачу как прочитать и обработать, не потеряв в производительности. Тот же sed можно запускать через os.system и его результаты обрабатывать питоном.
Хотя я не исключаю, что я неправильно понял задачу.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
10.01.2018, 14:47
Помогаю со студенческими работами здесь

Парсинг огромного XML файла
Здравствуйте! Пытаюсь распарсить большой xml файл. Для этого загружаю его в память и на этом этапе возникают сложности. Для...

Редактирование огромного текстового файла
Добрый день. У меня три вопроса по большому объему редактирования текстовых файлов Могу через EmEditor посредством макроса или...

Считывание файла огромного размера по частям
Всем привет. Стоит задача прочитать определённое количество значений файла, размерностью .bin каждые 2500000 значений. Прочитать весь файл...

Быстрый парсинг огромного txt файла (800 мб)
В общем нужно распарсить в массив Integer-ов огромный текстовый файл (800 мб), состоящий из 1 длинной строки, которая состоит из чисел от 1...

Как прочитать первые 15 символов огромного файла
Всем добрый день. Собственно вопрос в теме, файл очень большой, и что бы не грузить его весь, хотелось бы понять как можно прочитать...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru