Форум программистов, компьютерный форум, киберфорум
С++ для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.64/11: Рейтинг темы: голосов - 11, средняя оценка - 4.64
108 / 108 / 23
Регистрация: 21.03.2010
Сообщений: 445

Парсинг потоками

15.10.2011, 04:32. Показов 2382. Ответов 10
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте.
У меня есть текстовый файл объёмом где-то 10-50 мегобайт. В нём в текстовом виде хранятся числа и строки в известном мне формате. Как наилучшим образом его считать и пропарсить?
То как это реализовано сейчас:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
UNVData::UNVData(std::string fileAdr)
{
    std::fstream f(fileAdr, std::ios::binary | std::ios::in);
 
    if(!f)
    {
        std::cerr << "Can't open file \"" << fileAdr << "\" licke binary!";
    }
    else
    {
        std::istringstream stream;
        f.seekg( 0, std::ios::end );
        std::ios::pos_type fSize = f.tellg();
        f.seekg( 0, std::ios::beg );
        
        char* file = new char[static_cast<unsigned long>(fSize) + 1];
        f.read( file, fSize );
        file[static_cast<unsigned long long>(fSize)] = 0;
 
        stream.str(file);
 
        delete[] file;
        
        /*Далее извлечение из потока по формату.*/
 
    }
}
Очевидные минусы:
1. Простой процессора во время считывания файла с диска
2. Использование массива просто чтобы перегнать данные в поток (по крайней мере время на переписывание информации из массива в поток и время на выделение массива).
Естественно, я знаю что можно просто брать данные из файлового потока, но, на сколько я понимаю, тогда информация будет считываться крошечными порциями. В такой ситуации жесткий диск должен работать очень неэффективно.

Буду рад услышать о более совершенных вариантах или узнать оправдательные аргументы в пользу высказанных выше.
Хочу отметить, что уже реализовал быстрый разбор файла в стиле Си, но хотелось бы попытаться выполнить задачу в рамках объектно-ориентированного подхода.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
15.10.2011, 04:32
Ответы с готовыми решениями:

Работа с потоками
Добрый вечер. Возникла такая проблема: в консольном приложении воспроизводится музыка при помощи mciSendString(s.c_str(), NULL, 0,...

Работа с потоками
Поток main должен выполнить следующие действия: создать массив, размерность и элементы которого вводятся пользователем с консоли; ...

Работа с потоками
Пишу простой RSS агрегатор и уже практически доделал его в программе параллельно устанавливается соединение и потом извлекаем данные из...

10
Делаю внезапно и красиво
Эксперт С++
 Аватар для Deviaphan
1313 / 1228 / 72
Регистрация: 22.03.2011
Сообщений: 3,744
15.10.2011, 08:07
1. Забей. У тебя один файл небольшого размера, потеря времени не существенна. Если делать параллельное считывание и парсинг, то код очень сильно усложнится, но время уменьшится не сильно.
2. Создай std::string, выдели в нём память, считай файл в эту строку и подключи её к потоку в виде буфера. Так избавишься от промежуточного массива.
2
108 / 108 / 23
Регистрация: 21.03.2010
Сообщений: 445
15.10.2011, 08:17  [ТС]
2. так и сделаю
1. Я готов к трудностям. Это реализуется только многопоточностью или есть более простые методы?
0
1080 / 1007 / 107
Регистрация: 28.02.2010
Сообщений: 2,889
15.10.2011, 08:21
Цитата Сообщение от CEBEP Посмотреть сообщение
Это реализуется только многопоточностью или есть более простые методы?
Сомневаюсь, что параллельные операции можно выполнять без использования многопоточности.
0
Делаю внезапно и красиво
Эксперт С++
 Аватар для Deviaphan
1313 / 1228 / 72
Регистрация: 22.03.2011
Сообщений: 3,744
15.10.2011, 08:44
Цитата Сообщение от CEBEP Посмотреть сообщение
Я готов к трудностям.
У тебя один файл или много?
Если один, то ты только потратишь время. Файл слишком маленький, чтобы распараллеливать считывание и парсинг. Если бы размер файла был сопоставим с объёмом оперативной памяти или больше её, то это имело бы смысл, но с файлом 50 мегабайт это не имеет смысла. На синхронизации потоков ты потратишь больше времени, чем выиграешь за счёт параллельной работы.
Если файлов много и ты реализуешь пакетную обработку, то всё несколько проще. Тебе нужно создать два буфера. Считываешь первый, запускаешь его парсинг и в это же время считываешь второй файл во второй буфер. Ждёшь завершения обеих операций, меняешь буферы местами и повторяешь. И чтение и парсинг лучше делать в отдельных потоках; в основной программе выполнять синхронизацию потоков.

Добавлено через 33 секунды
Цитата Сообщение от Евгений М. Посмотреть сообщение
Сомневаюсь, что параллельные операции можно выполнять без использования многопоточности.
MMX, SSE

Добавлено через 41 секунду
А учитывая мультискалярность...
1
108 / 108 / 23
Регистрация: 21.03.2010
Сообщений: 445
15.10.2011, 08:44  [ТС]
файл наверняка будет один. но нельзя сказать каков его предельный размер. Возможно, там появятся цифры зашкаливающие за гигабайт. Впрочем, так или иначе, программу можно будет запустить на машине с оперативкой гигабайт в тридцать.
0
Делаю внезапно и красиво
Эксперт С++
 Аватар для Deviaphan
1313 / 1228 / 72
Регистрация: 22.03.2011
Сообщений: 3,744
15.10.2011, 08:58
Для параллельной обработки одного файла, тебе придётся читать его кусками. Так же используешь два буфера. В один читаешь, второй обрабатываешь. Могут быть проблемы с "переносом", т.е. если часть данных останется в одном буфере, а продолжение в другом, так что подумай над этим. Возможно, будет удобнее использовать один буфер двойного объёма и "зациклить" его. Впрочем, всё зависит от того, как ты реализуешь парсер. Если длина данным фиксирована, то ты можешь точно высчитать размер буфера, чтобы не возникло описанной проблемы.
Наврятли имеет смысл делать буфер более 64 мегабайт, но зависит от скорости HDD и скорости парсинга. Т.е. тебе нужно примерно подобрать, чтобы скорость чтения блока размером N была равна времени парсинга блока такого-же размера.
1
108 / 108 / 23
Регистрация: 21.03.2010
Сообщений: 445
15.10.2011, 11:42  [ТС]
Удивительно! думал что считать файл в строку целиком просто. До сих пор не смог, а занимаюсь этим с тех пор как написал что так и сделаю.
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
UNVData::UNVData(std::string fileAdr)
{
    std::fstream file(fileAdr, std::ios::binary | std::ios::in);
 
    if(!file)
    {
        std::cerr << "Can't open file \"" << fileAdr << "\" licke binary!";
    }
    else
    {
        file.seekg( 0, std::ios::end );
        std::ios::pos_type fSize = file.tellg();
        file.seekg( 0, std::ios::beg );
        
        std::string bufer;
        bufer.reserve(static_cast<std::basic_string<char, std::char_traits<char>, std::allocator<char>>::size_type>(fSize));
        std::ostringstream(bufer) << file.rdbuf();
 
        std::cout << bufer;
 
        std::istringstream stream(bufer);
 
        std::cout << bufer;
    }
}
Добавлено через 36 секунд
статик_каст - это шутка такая...

Добавлено через 3 минуты
В результате работы кода я получаю по прежнему пустую строку. fstream.read() шокировал тем что не может работать со строками. Я был уверен, что со стандартной библиотекой можно работать максимально просто используя стандартные объекты.... что-то я в печали...
0
Делаю внезапно и красиво
Эксперт С++
 Аватар для Deviaphan
1313 / 1228 / 72
Регистрация: 22.03.2011
Сообщений: 3,744
15.10.2011, 11:56
Цитата Сообщение от CEBEP Посмотреть сообщение
bufer.reserve(static_cast<std::basic_str ing<char, std::char_traits<char>, std::allocator<char>>::size_type>(fSize) );
C++
1
2
3
4
bufer.reserve(fSize+1);
f.read( &bufer.at(0), fSize );
bufer[fSize] = '\0';
std::istringstream stream(bufer);
Как бы всё...

Добавлено через 1 минуту
Операторы << и >> используются только для текстовых потоков, у тебя бинарные.
1
108 / 108 / 23
Регистрация: 21.03.2010
Сообщений: 445
16.10.2011, 07:04  [ТС]
C++
1
2
3
4
bufer.reserve(fSize+1);
f.read( &bufer.at(0), fSize );
bufer[fSize] = '\0';
std::istringstream stream(bufer);
Этот способ никуда не годится. С одной стороны, память под строку действительно выделена, но длинна строки внутри класса после такой записи остаётся нулевой. Это приводит к тому, что при обращении к любому символу строки генерится ошибка а при попытке вывести такую строку выводится пустая строка. Здесь подходит
C++
1
2
3
std::string bufer;
bufer.resize(fSize + 1);
file.read( &bufer.at(1),  fSize  );
и присовение последнему символу '\0' тогда не нужно.
Кстати, << и >> в принципе годятся и для бинарного файла. Например,
C++
1
std::cout << file.rdbuf();
работает на ура.
0
Делаю внезапно и красиво
Эксперт С++
 Аватар для Deviaphan
1313 / 1228 / 72
Регистрация: 22.03.2011
Сообщений: 3,744
16.10.2011, 07:08
Точно. reserve выделяет память, но не меняет длину строки. Ступил чуток.)
Замени at(1) на at(0). С нуля индексация начинается.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
16.10.2011, 07:08
Помогаю со студенческими работами здесь

Ошибка с потоками
#include &lt;thread&gt; void Player::threadFunction(MovementInfo const&amp; movementInfo) { while (speed_on == 1) { ...

проблема с потоками
Ребят при написании программы появилась проблема, опишу вкратце. пишу интерфейс WTL шаблонами. В MainWindow класса есть метод обработки...

Работа с потоками
Нужно посчитать сумму элементов в матрице nxn написал а она мне выдаёт ошибку. и теперь не знаю что надо делать. ...

работа с потоками
Добрый вечер! Есть файл txt, состоит из символов, чисел, необходимо его открыть, упорядочить некоторым образом и записать, начал с...

Работа с потоками.
Здравствуйте. Есть программа реализующая перебор вариантов размена суммы (к примеру 100 = 100, 100 = 50 + 50 т.д.) #include...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
11
Ответ Создать тему
Новые блоги и статьи
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США. Нашел на реддите интересную статью под названием «Кто-нибудь знает, где получить бесплатный компьютер или. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru