Форум программистов, компьютерный форум, киберфорум
C/С++ под Linux
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.88/8: Рейтинг темы: голосов - 8, средняя оценка - 4.88
0 / 0 / 0
Регистрация: 03.04.2017
Сообщений: 4

Парсинг больших файлов

11.04.2017, 21:26. Показов 1614. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
У меня есть файлы размером ~ 1-2Гб, задача распарсить файл, сделать изменения, и сохранить изменённую копию. Файл размером около ~1 Гб парсится примерно 6 минут и всё успешно, то есть результат совпадает с желаемым, а с двухгигабайтными начались приколы. Программа обрабатывает где-то 1,4Гб за минут 18, потом с огромной скоростью пишет в файл какие-то данные (не мусор, tail выдаёт осмысленное содержимое), но за минут 5 размер выходного файла доходит до 20 Гб и продолжает расти. Условие на выход из цикла обработки read(...) == 0 или -1.
Как такое может быть? Откуда он вообще берёт эти данные? Будто файл никогда не заканчивается.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
11.04.2017, 21:26
Ответы с готовыми решениями:

Парсинг больших текстовых файлов
Добрый день! В общем столкнулся с задачей отпарсить текстовик на 4 миллиона строк (в примере код для пары тысяч строк). ...

Парсинг больших .xlsx файлов
Доброго времени суток! Подскажите как парсить большие xlsx файлы (4 столбца и > 300к строк). PHPExcel с такими большими файлами работать не...

Парсинг больших строковых файлов
Задача следующая: Нужно в текстовом файле (файл может быть очень большого размера) найти все вхождения заданной строки (смещения...

1
Evg
Эксперт CАвтор FAQ
 Аватар для Evg
21281 / 8305 / 637
Регистрация: 30.03.2009
Сообщений: 22,660
Записей в блоге: 30
11.04.2017, 21:48
Скорее всего у тебя есть счётчик чего-то, под что отведено 32-битное значение и там происходит выход за верхнюю границу. Например, в случае миллиона int'ов (а точнее, 1024*1024*1024 int'ов)

Цитата Сообщение от ASaint Посмотреть сообщение
Откуда он вообще берёт эти данные?
А мы почём знаем? Ты же программу писал
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
11.04.2017, 21:48
Помогаю со студенческими работами здесь

Парсинг больших xml
Собственно у меня два вопроса: 1) как десереализуют жирные xml ? 2) как пользоваться xmlShema ? Теперь подробнее: 1) Моя...

Чтение больших файлов
Всем привет Возник такой вопрос. Допустим, есть какой-то файл в 1 Тб. Если я открываю его для чтения, то получается, что этот файл...

Передача больших файлов
Добрый день, помогите разобраться, нужно реализовать передачу больших файлов(>50мб) с клиента на сервер и наоборот. Настроил...

Слияние больших файлов
Доброго времени суток! Есть несколько больших текстовых и excel файлов. Делаю импорт из них на страницы, нужно их слить в несолько...

Просмотр больших файлов
Есть код программы которая открывает большие файлы и позволяет динамически подгружать из них данные при перелистывании using System; ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru