|
108 / 108 / 23
Регистрация: 21.03.2010
Сообщений: 445
|
||||||
Парсинг потоками15.10.2011, 04:32. Показов 2418. Ответов 10
Метки нет (Все метки)
Здравствуйте.
У меня есть текстовый файл объёмом где-то 10-50 мегобайт. В нём в текстовом виде хранятся числа и строки в известном мне формате. Как наилучшим образом его считать и пропарсить? То как это реализовано сейчас:
1. Простой процессора во время считывания файла с диска 2. Использование массива просто чтобы перегнать данные в поток (по крайней мере время на переписывание информации из массива в поток и время на выделение массива). Естественно, я знаю что можно просто брать данные из файлового потока, но, на сколько я понимаю, тогда информация будет считываться крошечными порциями. В такой ситуации жесткий диск должен работать очень неэффективно. Буду рад услышать о более совершенных вариантах или узнать оправдательные аргументы в пользу высказанных выше. Хочу отметить, что уже реализовал быстрый разбор файла в стиле Си, но хотелось бы попытаться выполнить задачу в рамках объектно-ориентированного подхода.
0
|
||||||
| 15.10.2011, 04:32 | |
|
Ответы с готовыми решениями:
10
Работа с потоками Работа с потоками Работа с потоками |
|
Делаю внезапно и красиво
1313 / 1228 / 72
Регистрация: 22.03.2011
Сообщений: 3,744
|
|
| 15.10.2011, 08:07 | |
|
1. Забей. У тебя один файл небольшого размера, потеря времени не существенна. Если делать параллельное считывание и парсинг, то код очень сильно усложнится, но время уменьшится не сильно.
2. Создай std::string, выдели в нём память, считай файл в эту строку и подключи её к потоку в виде буфера. Так избавишься от промежуточного массива.
2
|
|
|
108 / 108 / 23
Регистрация: 21.03.2010
Сообщений: 445
|
|
| 15.10.2011, 08:17 [ТС] | |
|
2. так и сделаю
![]() 1. Я готов к трудностям. Это реализуется только многопоточностью или есть более простые методы?
0
|
|
|
1080 / 1007 / 107
Регистрация: 28.02.2010
Сообщений: 2,889
|
||
| 15.10.2011, 08:21 | ||
|
0
|
||
|
Делаю внезапно и красиво
1313 / 1228 / 72
Регистрация: 22.03.2011
Сообщений: 3,744
|
|||
| 15.10.2011, 08:44 | |||
|
Если один, то ты только потратишь время. Файл слишком маленький, чтобы распараллеливать считывание и парсинг. Если бы размер файла был сопоставим с объёмом оперативной памяти или больше её, то это имело бы смысл, но с файлом 50 мегабайт это не имеет смысла. На синхронизации потоков ты потратишь больше времени, чем выиграешь за счёт параллельной работы. Если файлов много и ты реализуешь пакетную обработку, то всё несколько проще. Тебе нужно создать два буфера. Считываешь первый, запускаешь его парсинг и в это же время считываешь второй файл во второй буфер. Ждёшь завершения обеих операций, меняешь буферы местами и повторяешь. И чтение и парсинг лучше делать в отдельных потоках; в основной программе выполнять синхронизацию потоков. Добавлено через 33 секунды ![]() Добавлено через 41 секунду А учитывая мультискалярность...
1
|
|||
|
108 / 108 / 23
Регистрация: 21.03.2010
Сообщений: 445
|
|
| 15.10.2011, 08:44 [ТС] | |
|
файл наверняка будет один. но нельзя сказать каков его предельный размер. Возможно, там появятся цифры зашкаливающие за гигабайт. Впрочем, так или иначе, программу можно будет запустить на машине с оперативкой гигабайт в тридцать.
0
|
|
|
Делаю внезапно и красиво
1313 / 1228 / 72
Регистрация: 22.03.2011
Сообщений: 3,744
|
|
| 15.10.2011, 08:58 | |
|
Для параллельной обработки одного файла, тебе придётся читать его кусками. Так же используешь два буфера. В один читаешь, второй обрабатываешь. Могут быть проблемы с "переносом", т.е. если часть данных останется в одном буфере, а продолжение в другом, так что подумай над этим. Возможно, будет удобнее использовать один буфер двойного объёма и "зациклить" его. Впрочем, всё зависит от того, как ты реализуешь парсер. Если длина данным фиксирована, то ты можешь точно высчитать размер буфера, чтобы не возникло описанной проблемы.
Наврятли имеет смысл делать буфер более 64 мегабайт, но зависит от скорости HDD и скорости парсинга. Т.е. тебе нужно примерно подобрать, чтобы скорость чтения блока размером N была равна времени парсинга блока такого-же размера.
1
|
|
|
108 / 108 / 23
Регистрация: 21.03.2010
Сообщений: 445
|
||||||
| 15.10.2011, 11:42 [ТС] | ||||||
|
Удивительно! думал что считать файл в строку целиком просто. До сих пор не смог, а занимаюсь этим с тех пор как написал что так и сделаю.
статик_каст - это шутка такая... Добавлено через 3 минуты В результате работы кода я получаю по прежнему пустую строку. fstream.read() шокировал тем что не может работать со строками. Я был уверен, что со стандартной библиотекой можно работать максимально просто используя стандартные объекты.... что-то я в печали...
0
|
||||||
|
Делаю внезапно и красиво
1313 / 1228 / 72
Регистрация: 22.03.2011
Сообщений: 3,744
|
|||||||
| 15.10.2011, 11:56 | |||||||
Добавлено через 1 минуту Операторы << и >> используются только для текстовых потоков, у тебя бинарные.
1
|
|||||||
|
108 / 108 / 23
Регистрация: 21.03.2010
Сообщений: 445
|
||||||||||||||||
| 16.10.2011, 07:04 [ТС] | ||||||||||||||||
Кстати, << и >> в принципе годятся и для бинарного файла. Например,
0
|
||||||||||||||||
|
Делаю внезапно и красиво
1313 / 1228 / 72
Регистрация: 22.03.2011
Сообщений: 3,744
|
|
| 16.10.2011, 07:08 | |
|
Точно. reserve выделяет память, но не меняет длину строки. Ступил чуток.)
Замени at(1) на at(0). С нуля индексация начинается.
0
|
|
| 16.10.2011, 07:08 | |
|
Помогаю со студенческими работами здесь
11
Ошибка с потоками проблема с потоками Работа с потоками работа с потоками Работа с потоками. Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ВВЕДЕНИЕ
Выполняя задание на управление насосной группой заполнения резервуара,. . .
|
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
|
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога
Финальные проекты на Си и на C++:
hello-sdl3-c. zip
hello-sdl3-cpp. zip
Результат:
|
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога
MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
|
|
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд.
Даже если у вас. . .
|
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает
монорепозиторий в котором находятся все исходники.
При создании нового решения, мы просто добавляем нужные проекты
и имеем. . .
|
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение:
В этой книге («Подход, основанный на вариантах использования») Ивар утверждает,
что архитектура программного обеспечения — это
структуры,. . .
|
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога
Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
|