Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.91/11: Рейтинг темы: голосов - 11, средняя оценка - 4.91
0 / 0 / 0
Регистрация: 19.11.2017
Сообщений: 75

Чтение объемного файла

26.01.2020, 17:20. Показов 2171. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте! Появилось желание решить задачу по анализу данных, нашел на просторах интернета задачу, а также обучающую выборку, которая весит 5гб в формате .txt . Как только не пытался я запарсить, но все получалось плохо. Не подскажете как вообще запарсить файл такого размера?
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
26.01.2020, 17:20
Ответы с готовыми решениями:

Чтение чисел из файла. Чтение после конца потока невозможно
Товарищи, помогите. В Pascal'e я не силен, так что не бейте меня ногами, но есть задача: написать обычную программу для расчета некоторых...

Как заменить чтение строки из консоли на чтение текстового файла?
основное задание: найти частоту суффикса (например, "ing") в текстовом документе. в прикреплённом коде текст вводится прямо в консоль,...

Чтение файла, чтение названия папки где находится файл, запись данных на PHP
Допустим у нас есть структура с папками типа Large -> Vehicles -> Firetruck_0 В этой папке лежит файл формата .dat Что нужно сделать? ...

7
 Аватар для Semen-Semenich
5237 / 3481 / 1176
Регистрация: 21.03.2016
Сообщений: 8,307
26.01.2020, 17:23
Лучший ответ Сообщение было отмечено Rashad1337 как решение

Решение

читать построчно и парсить каждую строку.
Python
1
2
3
with open('text.txt') as file:
    line = file.readline()
    # тут парсите строку line
1
Эксперт Python
1356 / 653 / 207
Регистрация: 23.03.2014
Сообщений: 3,057
26.01.2020, 17:24
Лучший ответ Сообщение было отмечено Rashad1337 как решение

Решение

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
def zapis(my_filename, fext2):
    with open(my_filename + '.' + fext2, 'w', encoding='utf-8') as fp:
        print('проба', file=fp, sep="\n")
 
 
def reader(my_filename, fext2):
    with open(my_filename + '.' + fext2, 'r', encoding='utf-8') as fp:
        data = fp.readlines()
    print(data)
 
 
if __name__ == '__main__':
    my_filename = None
    fex2 = None
    zapis(my_filename='проба', fext2='txt')
    reader(my_filename='проба', fext2='txt')
1
0 / 0 / 0
Регистрация: 19.11.2017
Сообщений: 75
26.01.2020, 17:30  [ТС]
Спасибо большое! Извиняюсь за тупой вопрос, но может ли это не сработать из-за малого количества оперативки на пк?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
26.01.2020, 17:30
Цитата Сообщение от Rashad1337 Посмотреть сообщение
Не подскажете как вообще запарсить файл такого размера?
Все зависит от того, что именно вы хотите распарсить. Какая у вас стоит конкретная задача? Для чего нужен 5gb файл? Может вам оттуда и не надо брать все?

Для задач машинного обучения на корпусах big data сущестуют онлайновые реализации тех или иных алгоритмов, которые умею обучаться построчно.
Например LDAModel из gensim умеет обучаться на корпусах любых размеров.
Библиотека тематического моделирования BigARTM - тоже.
0
0 / 0 / 0
Регистрация: 19.11.2017
Сообщений: 75
26.01.2020, 17:33  [ТС]
Добавлено через 2 минуты
Ну задача состоит в следующем: нужно предсказать интервал заработной платы на основе данных о вакансии. Была подготовлена обучающая выборка из вакансий с указанными зарплатами (с верхней и нижней границей или с одной из них). Задача – максимально точно предсказать возможную предлагаемую заработную плату, которую мог бы поставить работодатель.
0
Эксперт Python
1356 / 653 / 207
Регистрация: 23.03.2014
Сообщений: 3,057
26.01.2020, 17:43
как пример именно парсинга
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import re
 
with  open("2.txt", encoding="utf-16") as fd:
    text2 = fd.read()
 
with open("1.txt") as fd:
    for pattern in fd:
        pattern = pattern.strip()
        if pattern:
            regex = "^(.+{}.+)$".format(re.escape(pattern))
            text2 = re.sub(regex, '', text2, flags=re.MULTILINE)
# удаление пустых строк
text2 = re.sub(r'\n\s*\n', '\n', text2, re.MULTILINE)
# новый файл - можете указать имя прежнего файла
with open("2new.txt", "w", encoding="utf-16") as f:
    f.write(text2)
Добавлено через 8 минут
Rashad1337, вряд-ли оперативка.
а вот то что некоторые ide ограничивают оюъем обрабатываемой информации , либо время работы скрипта -факт.
1
0 / 0 / 0
Регистрация: 19.11.2017
Сообщений: 75
26.01.2020, 20:58  [ТС]
понял, спасибо большое!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
26.01.2020, 20:58
Помогаю со студенческими работами здесь

Заменить чтение файлов через IMAP на почте на чтение с файла с сылки и последующее удаление
Доброе время суток! Вот вожусь с кодом: function checkEmail() { ...

Как заменить чтение массива на чтение файла с .txt
что делать если программа подстроена под чтение массива, а нужно читать .тхт

Чтение заголовка PCX файла и чтение растровых данных PCX файла
Привет форумчане! Столкнулся с такой проблемой. Нужно считать заголовок PCX файла и растровые данные PCX файла. Код написал. Часть...

Переделать в коде чтение из файла в чтение с клавиатуры
Переделайте что бы текст считывался с клавиатуры, а не с файла! Буду благодарен за помощь! //файл должен начинаться со слова, между...

Чтение бинарного файла - чтение первых 9 байт
Есть код, который читает первые 9 байт бинарного файла(заголовок записи) void ATS44Encoder::FileEncode() { QFile* file = new...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
1С: Программный отбор элементов справочника Номенклатура по группе
Maks 22.03.2026
Установка программного отбора элементов справочника "Номенклатура" из модуля формы документа. В качестве фильтра для отбора справочника служит группа номенклатуры. Отбор под наименованию группы (на. . .
Как я обхитрил таблицу Word
Alexander-7 21.03.2026
Когда мигает курсор у внешнего края таблицы, и нам надо перейти на новую строку, а при нажатии Enter создается новый ряд таблицы с ячейками, то мы вместо нервных нажатий Энтеров мы пишем любые буквы. . .
Krabik - рыболовный бот для WoW 3.3.5a
AmbA 21.03.2026
без регистрации и смс. Это не торговля, приложение не содержит рекламы. Выполняет свою непосредственную задачу - автоматизацию рыбалки в WoW - и ничего более. Однако если админы будут против -. . .
1С: Программный отбор элементов справочника Сотрудники по значению перечисления
Maks 21.03.2026
Установка программного отбора элементов справочника "Сотрудники" из модуля формы документа. В качестве фильтра для отбора служит предопределенное значение перечислений. Процедура. . .
Переходник USB-CAN-GPIO
Eddy_Em 20.03.2026
Достаточно давно на работе возникла необходимость в переходнике CAN-USB с гальваноразвязкой, оный и был разработан. Однако, все меня терзала совесть, что аж 48-ногий МК используется так тупо: просто. . .
Оттенки серого
Argus19 18.03.2026
Оттенки серого Нашёл в интернете 3 прекрасных модуля: Модуль класса открытия диалога открытия/ сохранения файла на Win32 API; Модуль класса быстрого перекодирования цветного изображения в оттенки. . .
SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++
8Observer8 17.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-rectangles-sdl3-c. zip finish-rectangles-sdl3-cpp. zip
Символические и жёсткие ссылки в Linux.
algri14 15.03.2026
Существует два типа ссылок — символические и жёсткие. Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru