0 / 0 / 0
Регистрация: 19.11.2017
Сообщений: 75

Чтение объемного файла

26.01.2020, 17:20. Показов 2174. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте! Появилось желание решить задачу по анализу данных, нашел на просторах интернета задачу, а также обучающую выборку, которая весит 5гб в формате .txt . Как только не пытался я запарсить, но все получалось плохо. Не подскажете как вообще запарсить файл такого размера?
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
26.01.2020, 17:20
Ответы с готовыми решениями:

Чтение чисел из файла. Чтение после конца потока невозможно
Товарищи, помогите. В Pascal'e я не силен, так что не бейте меня ногами, но есть задача: написать обычную программу для расчета некоторых...

Как заменить чтение строки из консоли на чтение текстового файла?
основное задание: найти частоту суффикса (например, "ing") в текстовом документе. в прикреплённом коде текст вводится прямо в консоль,...

Чтение файла, чтение названия папки где находится файл, запись данных на PHP
Допустим у нас есть структура с папками типа Large -> Vehicles -> Firetruck_0 В этой папке лежит файл формата .dat Что нужно сделать? ...

7
 Аватар для Semen-Semenich
5237 / 3481 / 1176
Регистрация: 21.03.2016
Сообщений: 8,307
26.01.2020, 17:23
Лучший ответ Сообщение было отмечено Rashad1337 как решение

Решение

читать построчно и парсить каждую строку.
Python
1
2
3
with open('text.txt') as file:
    line = file.readline()
    # тут парсите строку line
1
Эксперт Python
1356 / 653 / 207
Регистрация: 23.03.2014
Сообщений: 3,057
26.01.2020, 17:24
Лучший ответ Сообщение было отмечено Rashad1337 как решение

Решение

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
def zapis(my_filename, fext2):
    with open(my_filename + '.' + fext2, 'w', encoding='utf-8') as fp:
        print('проба', file=fp, sep="\n")
 
 
def reader(my_filename, fext2):
    with open(my_filename + '.' + fext2, 'r', encoding='utf-8') as fp:
        data = fp.readlines()
    print(data)
 
 
if __name__ == '__main__':
    my_filename = None
    fex2 = None
    zapis(my_filename='проба', fext2='txt')
    reader(my_filename='проба', fext2='txt')
1
0 / 0 / 0
Регистрация: 19.11.2017
Сообщений: 75
26.01.2020, 17:30  [ТС]
Спасибо большое! Извиняюсь за тупой вопрос, но может ли это не сработать из-за малого количества оперативки на пк?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
26.01.2020, 17:30
Цитата Сообщение от Rashad1337 Посмотреть сообщение
Не подскажете как вообще запарсить файл такого размера?
Все зависит от того, что именно вы хотите распарсить. Какая у вас стоит конкретная задача? Для чего нужен 5gb файл? Может вам оттуда и не надо брать все?

Для задач машинного обучения на корпусах big data сущестуют онлайновые реализации тех или иных алгоритмов, которые умею обучаться построчно.
Например LDAModel из gensim умеет обучаться на корпусах любых размеров.
Библиотека тематического моделирования BigARTM - тоже.
0
0 / 0 / 0
Регистрация: 19.11.2017
Сообщений: 75
26.01.2020, 17:33  [ТС]
Добавлено через 2 минуты
Ну задача состоит в следующем: нужно предсказать интервал заработной платы на основе данных о вакансии. Была подготовлена обучающая выборка из вакансий с указанными зарплатами (с верхней и нижней границей или с одной из них). Задача – максимально точно предсказать возможную предлагаемую заработную плату, которую мог бы поставить работодатель.
0
Эксперт Python
1356 / 653 / 207
Регистрация: 23.03.2014
Сообщений: 3,057
26.01.2020, 17:43
как пример именно парсинга
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import re
 
with  open("2.txt", encoding="utf-16") as fd:
    text2 = fd.read()
 
with open("1.txt") as fd:
    for pattern in fd:
        pattern = pattern.strip()
        if pattern:
            regex = "^(.+{}.+)$".format(re.escape(pattern))
            text2 = re.sub(regex, '', text2, flags=re.MULTILINE)
# удаление пустых строк
text2 = re.sub(r'\n\s*\n', '\n', text2, re.MULTILINE)
# новый файл - можете указать имя прежнего файла
with open("2new.txt", "w", encoding="utf-16") as f:
    f.write(text2)
Добавлено через 8 минут
Rashad1337, вряд-ли оперативка.
а вот то что некоторые ide ограничивают оюъем обрабатываемой информации , либо время работы скрипта -факт.
1
0 / 0 / 0
Регистрация: 19.11.2017
Сообщений: 75
26.01.2020, 20:58  [ТС]
понял, спасибо большое!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
26.01.2020, 20:58
Помогаю со студенческими работами здесь

Заменить чтение файлов через IMAP на почте на чтение с файла с сылки и последующее удаление
Доброе время суток! Вот вожусь с кодом: function checkEmail() { ...

Как заменить чтение массива на чтение файла с .txt
что делать если программа подстроена под чтение массива, а нужно читать .тхт

Чтение заголовка PCX файла и чтение растровых данных PCX файла
Привет форумчане! Столкнулся с такой проблемой. Нужно считать заголовок PCX файла и растровые данные PCX файла. Код написал. Часть...

Переделать в коде чтение из файла в чтение с клавиатуры
Переделайте что бы текст считывался с клавиатуры, а не с файла! Буду благодарен за помощь! //файл должен начинаться со слова, между...

Чтение бинарного файла - чтение первых 9 байт
Есть код, который читает первые 9 байт бинарного файла(заголовок записи) void ATS44Encoder::FileEncode() { QFile* file = new...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Опции темы

Новые блоги и статьи
Отправка уведомления на почту при изменении наименования справочника
Maks 24.03.2026
Программная отправка письма электронной почты на примере изменения наименования типового справочника "Склады" в конфигурации БП3. Перед реализацией необходимо выполнить настройку системной учетной. . .
модель ЗдравоСохранения 5. Меньше увольнений- больше дохода!
anaschu 24.03.2026
Теперь система здравосохранения уменьшает количество увольнений. 9TO2GP2bpX4 a42b81fb172ffc12ca589c7898261ccb/ https:/ / rutube. ru/ video/ a42b81fb172ffc12ca589c7898261ccb/ Слева синяя линия -. . .
Midnight Chicago Blues
kumehtar 24.03.2026
Такой Midnight Chicago Blues, знаешь?. . Когда вечерние улицы становятся ночными, а ты не можешь уснуть. Ты идёшь в любимый старый бар, и бармен наливает тебе виски. Ты смотришь на пролетающие. . .
Контроль уникальности заводского номера - вариант №2
Maks 24.03.2026
В отличие от предыдущего варианта добавлено прерывание циклов, также добавлены новые переменные для сохранения контекста ошибки перед прерыванием цикла: Процедура ПередЗаписью(Отказ, РежимЗаписи,. . .
SDL3 для Desktop (MinGW): Вывод текста со шрифтом TTF с помощью библиотеки SDL3_ttf на Си и C++
8Observer8 24.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-text-sdl3-c. zip finish-text-sdl3-cpp. zip
Жизнь в неопределённости
kumehtar 23.03.2026
Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .
Модель здравоСохранения: работники работают быстрее после её введения.
anaschu 23.03.2026
geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .
Контроль уникальности заводского номера - вариант №1
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере нетипового документа выдачи шин для спецтехники с табличной частью, разработанного в конфигурации КА2. Данные берутся из. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru