Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/11: Рейтинг темы: голосов - 11, средняя оценка - 5.00
106 / 87 / 13
Регистрация: 29.08.2012
Сообщений: 538

Парсинг больших строковых файлов

09.01.2016, 12:27. Показов 2201. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Задача следующая:
Нужно в текстовом файле (файл может быть очень большого размера) найти все вхождения заданной строки (смещения относительно начала).
Вроде бы реализуется элементарно:
C#
1
2
3
4
5
6
7
foreach (var line in File.ReadLines("somefile.txt"))
{
    if (line.Equals("шаблон"))
    {
        //делаем что нужно
    }
}
Но возникают проблемы:
1. строки в файле могут быть очень большой длины (следовательно упадем по нехватке памяти при чтении такой строки);
2. строки могут быть отделены как константой Environment.NewLine, так и просто символами '\r' или '\n'.
Пока в голове такой алгоритм: Создаем массив шаблонов строк. Строки имеют вид: "\rшаблон\r", "\nшаблон\r" ну и так далее все сочетания "шаблон" с обособлением его разными символами перевода строки. Мапаем файл в память кусками, например, по 1 мегабайту. В каждом таком куске находим все сгенерированные выше строки.
Но такой алгоритм не сработает, если:
1. "шаблон" попадет в разрыв между кусками;
2. в строке вида "что_то_еще\r\nшаблон\r\nчто_то_еще" "найдется" несколько шаблонов ("\r\nшаблон\r\n", "\nшаблон\r\n" и др.), их естественно нужно будет фильтровать;
3. может быть еще какие-то проблемы.
Получается что-то очень сложно для такой, казалось бы, элементарной задачки. Может возникнут у кого-то более простые идеи?
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
09.01.2016, 12:27
Ответы с готовыми решениями:

Просмотр больших файлов
Есть код программы которая открывает большие файлы и позволяет динамически подгружать из них данные при перелистывании using System; ...

Передача больших файлов по сокетам
Как можно решить проблему? У меня на входе массив байт разного размера. Передаю по сокетам второй программе, и она принимает до byte....

Чтение и обработка больших файлов
Нужно прочитать большой файл (несколько гигабайт), поделить содержимое файла на int'ы и посчитать их сумму. Как это сделать максимально...

2
TheGreatCornholio
 Аватар для Woldemar89
1255 / 733 / 285
Регистрация: 30.07.2015
Сообщений: 2,408
09.01.2016, 13:11
Создай ConcurrentQueue(макс. кол-во элементов), элемент = класс(буфер опр. размера со смещением в файле) и поток для чтения из файла блоков(буферов) в эту очередь.
Запусти несколько потоков, которые будут разбирать из очереди буферы и парсить.
Создай ConcurrentQueue<Result>, куда будут складываться результаты этими потоками(возможно периодически будут сбросы результатов в файл).
Типа того наверное
0
Эксперт .NETАвтор FAQ
 Аватар для Storm23
10427 / 5157 / 1825
Регистрация: 11.01.2015
Сообщений: 6,226
Записей в блоге: 34
09.01.2016, 18:05
Цитата Сообщение от Kukurudza Посмотреть сообщение
Нужно в текстовом файле (файл может быть очень большого размера) найти все вхождения заданной строки (смещения относительно начала).
State machine:
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
 
namespace ConsoleApplication205
{
    class Program
    {
        static void Main()
        {
 
            var fileName = "c:\\temp.txt";
 
            File.WriteAllText(fileName, 
@"мам
мама мыла
мама
папа
мама", Encoding.UTF8);
 
            foreach (var pos in FindPositions(fileName, "мама", Encoding.UTF8, true))
                Console.WriteLine(pos);
 
            Console.ReadLine();
        }
 
        static IEnumerable<long> FindPositions(string fileName, string templateLine, Encoding enc, bool skipBOM = false)
        {
            char c;
            var inLine = true;
            var counter = 0;
 
            using(var fs = new FileStream(fileName, FileMode.Open))
            using (var sr = new BinaryReader(fs, enc))
            {
                var length = fs.Length;
                if (skipBOM) fs.Position = 3;
 
                var start = fs.Position;
 
                while(fs.Position < length)
                {
                    c = sr.ReadChar();
                    switch (c)
                    {
                        case '\n':
                        case '\r':
                            if (inLine && counter == templateLine.Length)
                                yield return start;
                            start = fs.Position + 1;
                            counter = 0;
                            inLine = true;
                            break;
                        default:
                            if (inLine)
                                if (counter >= templateLine.Length || c != templateLine[counter])
                                    inLine = false;
                            counter++;
                            break;
                    }
                }
 
                if (inLine && counter == templateLine.Length)
                    yield return start;
            }
        }
    }
}
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
09.01.2016, 18:05
Помогаю со студенческими работами здесь

Многопоточное чтение больших файлов
Привет всем! Подскажите пожалуйста как реализовать многопоточное чтение файла рамером 1gb и больше без загрузки в память? Пробовал...

Чтение больших файлов (несколько гигабайт)
Доброго времени! Нужно прочесть и пропарсить крупный файл весом в несколько гигабайт. Подскажите как это сделать... Заранее благодарю!

TCP сокет. Передача больших файлов
Собственно пишу курсовую работу. Что-то на подобии DROPBOX. Передача файлов шифрование и всё такое) Реализовав сокет TCP у меня...

ProgressBar при загрузке больших файлов
Подскажите, как сюда запихнуть progressBar1 в среднем текстовые файлы будут вешать от 1 до 40 мегабайт string road =...

Передача больших файлов по протоколу UDP
Как отправлять большие файлы ? Помогите с реализацией пожалуйста. Передача файлов по UDP


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru