|
106 / 87 / 13
Регистрация: 29.08.2012
Сообщений: 538
|
||||||
Парсинг больших строковых файлов09.01.2016, 12:27. Показов 2201. Ответов 2
Метки нет (Все метки)
Задача следующая:
Нужно в текстовом файле (файл может быть очень большого размера) найти все вхождения заданной строки (смещения относительно начала). Вроде бы реализуется элементарно:
1. строки в файле могут быть очень большой длины (следовательно упадем по нехватке памяти при чтении такой строки); 2. строки могут быть отделены как константой Environment.NewLine, так и просто символами '\r' или '\n'. Пока в голове такой алгоритм: Создаем массив шаблонов строк. Строки имеют вид: "\rшаблон\r", "\nшаблон\r" ну и так далее все сочетания "шаблон" с обособлением его разными символами перевода строки. Мапаем файл в память кусками, например, по 1 мегабайту. В каждом таком куске находим все сгенерированные выше строки. Но такой алгоритм не сработает, если: 1. "шаблон" попадет в разрыв между кусками; 2. в строке вида "что_то_еще\r\nшаблон\r\nчто_то_еще" "найдется" несколько шаблонов ("\r\nшаблон\r\n", "\nшаблон\r\n" и др.), их естественно нужно будет фильтровать; 3. может быть еще какие-то проблемы. Получается что-то очень сложно для такой, казалось бы, элементарной задачки. Может возникнут у кого-то более простые идеи?
0
|
||||||
| 09.01.2016, 12:27 | |
|
Ответы с готовыми решениями:
2
Просмотр больших файлов Передача больших файлов по сокетам Чтение и обработка больших файлов |
|
TheGreatCornholio
1255 / 733 / 285
Регистрация: 30.07.2015
Сообщений: 2,408
|
|
| 09.01.2016, 13:11 | |
|
Создай ConcurrentQueue(макс. кол-во элементов), элемент = класс(буфер опр. размера со смещением в файле) и поток для чтения из файла блоков(буферов) в эту очередь.
Запусти несколько потоков, которые будут разбирать из очереди буферы и парсить. Создай ConcurrentQueue<Result>, куда будут складываться результаты этими потоками(возможно периодически будут сбросы результатов в файл). Типа того наверное
0
|
|
|
|
|||||||
| 09.01.2016, 18:05 | |||||||
0
|
|||||||
| 09.01.2016, 18:05 | |
|
Помогаю со студенческими работами здесь
3
Многопоточное чтение больших файлов Чтение больших файлов (несколько гигабайт)
ProgressBar при загрузке больших файлов Передача больших файлов по протоколу UDP Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога
Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
|
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
|
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога
В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
|
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога
Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
|
|
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога
Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
|
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога
Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
|
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования.
Часть библиотеки BedvitCOM
Использованы. . .
|
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога
SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
|