Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.85/13: Рейтинг темы: голосов - 13, средняя оценка - 4.85
5 / 5 / 2
Регистрация: 17.11.2016
Сообщений: 69

Сохранение больших объемов данных в файл

18.01.2018, 16:37. Показов 2639. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Народ подскажите, может есть у кого идеи.

У меня программа, с таблицей на 3,5-4 млн строк по 14-20 полей в каждой строке (поля преимующествено double, но есть и неопределенного типа) + 2 таблицы маппинга данных. Для экономии пространства строки с данными представляют просто массив double[] и object[], а в таблицах маппинга описано в как называется колонка в ячейке double[0], double[1] и т.д.

Все это надо сохранить в файл, а потом считать и восстановить данных.

Как это сделать максимально быстро записать + считать и с меньшем затратом ресурсов?
На данный момент файл 700 к строк и с 14 полями сохраняется в файл 124мб, это приемлемо, но вот считывание из этого файла занимает неприлично много времени.

На данный момент остановился на BinaryFormatter, так же пробовол SoapFormatter.

Код серриализации/дессиариализации выглядит так:
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
        public void GetObjectData(SerializationInfo info, StreamingContext context)
        {
            info.AddValue(nameof(_data), _data.ToArray());
            info.AddValue(nameof(_info), _info.ToArray());
            info.AddValue(nameof(_DataParameterIndex) + "key", _DataParameterIndex.Keys.ToArray());
            info.AddValue(nameof(_DataParameterIndex) + "val", _DataParameterIndex.Values.ToArray());
            info.AddValue(nameof(_InfoParameterIndex) + "key", _InfoParameterIndex.Keys.ToArray());
            info.AddValue(nameof(_InfoParameterIndex) + "val", _InfoParameterIndex.Values.ToArray());
        }
 
        public DataSets(SerializationInfo sInfo, StreamingContext contextArg)
        {
            _DataParameterIndex = new Dictionary<string, int>();
            _InfoParameterIndex = new Dictionary<string, int>();
 
            _data = new List<double[]>((double[][])sInfo.GetValue(nameof(_data), typeof(double[][])));
            _info = new List<object[]>((object[][])sInfo.GetValue(nameof(_info), typeof(object[][])));
           
            var key = (string[])sInfo.GetValue(nameof(_DataParameterIndex) + "key", typeof(string[]));
            var val = (int[])sInfo.GetValue(nameof(_DataParameterIndex) + "val", typeof(int[]));
            if (key.Length != val.Length)
            {
                throw new Exception("Файл поврежден, ключи не сходятся");
            }
 
            for (int i = 0; i < key.Length; i++)
            {
                _DataParameterIndex.Add(key[i],val[i]);
            }
 
            key = (string[])sInfo.GetValue(nameof(_InfoParameterIndex) + "key", typeof(string[]));
            val = (int[])sInfo.GetValue(nameof(_InfoParameterIndex) + "val", typeof(int[]));
            if (key.Length != val.Length)
            {
                throw new Exception("Файл поврежден, ключи не сходятся");
            }
            for (int i = 0; i < key.Length; i++)
            {
                _InfoParameterIndex.Add(key[i], val[i]);
            }
        }
Добавлено через 2 часа 24 минуты
Ускорил процесс, путем отказа от инфо данных типа object.
Но если они понадобятся в будующем как их добавлять теперь стало вопросом
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
18.01.2018, 16:37
Ответы с готовыми решениями:

Шифрование больших объемов данных
Здравствуйте. Имеются данные (файлы различных форматов) суммарным весом около 20 гигабайт. Задача зашифровать их максимально быстро, и...

Обработка больших объемов данных из Excel
Здравствуйте, уважаемые форумчане! Есть огромных размеров excel файл, пусть для простоты, в нем хранятся сведения о погоде: дата,...

Алгоритмы сортировки больших объёмов данных
Здравствуйте, столкнулся со следующей проблемой: Имею бинарный файл, в котором хранится матрица из чисел размером примерно 10000 на 40....

7
Эксперт .NET
 Аватар для Wolfdp
3789 / 1766 / 371
Регистрация: 15.06.2012
Сообщений: 6,543
Записей в блоге: 3
18.01.2018, 16:51
ужс. Почему просто не кидать сериализованую модель?
0
5 / 5 / 2
Регистрация: 17.11.2016
Сообщений: 69
18.01.2018, 16:56  [ТС]
Wolfdp,
Если ты про объявления класса как [Serializable], то это был шаг номер 0. И он падал из-за исключения: при сериализации выдавалось исключение превышение максимального значения int32.MaxValue. Я так понял, что при сериализации переменной класса List в которой много данных, получается данное исключение.

Если, ты про другое, то можешь подробнее описать, что ты имеешь ввиду. Т.к. яндекс по термину "сериализованая модель" ничего интересного не нашел.
0
Эксперт .NET
 Аватар для Wolfdp
3789 / 1766 / 371
Регистрация: 15.06.2012
Сообщений: 6,543
Записей в блоге: 3
18.01.2018, 17:56
я лет сто уже не юзал бинарную сериализацию, но когда-то делал так (еще не знал, что можно пихать листьі): в начале файла записывал количество, сначала считьівал его и потом в цикле считьівал по єлементу.
0
5 / 5 / 2
Регистрация: 17.11.2016
Сообщений: 69
19.01.2018, 00:40  [ТС]
Wolfdp,
Ну я в итоге, сделал примерно так же.
Сначала записываю словарь индексов, после записываю одну пустую строку, а потом все double данные.
А при считывании, читаю строки индексов, до нахождения пустой строки, после этого читаю double переменные до конца файла

П.С. Ты пишешь, что что лет не юзал бинарную сериализацию. Сейчас сериализуют другими методами? Если да, напиши пожалуйста, как новые методы называется?

Что у меня сейчас:
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
        public void SaveToStream(Stream Stream)
        {
            using (BinaryWriter Stream_Writer = new BinaryWriter(Stream))
            {
                foreach (var line in _DataParameterIndex)
                {
                    Stream_Writer.Write(line.Value);
                    Stream_Writer.Write(line.Key);
                }
                Stream_Writer.Write(-1);
 
                foreach (var line in _data)
                {
                    foreach (var value in line)
                    {
                        Stream_Writer.Write(value);
                    }
                }
            }
        }
 
        public DataSets(Stream Stream)
        {
            _DataParameterIndex = new Dictionary<string, int>();
            //_data = new List<double[]>();
 
            using (BinaryReader Stream_reader = new BinaryReader(Stream))
            {
                do
                {
                    int val = Stream_reader.ReadInt32();
                    if (val >= 0)
                    {
                        _DataParameterIndex.Add(Stream_reader.ReadString(), val);
                    }
                    else
                    {
                        break;
                    }
                } while (true);
 
                int line_count = _DataParameterIndex.Count;
                double[] line = null;
                try
                {
                    while (true)
                    {
                        line = new double[line_count];
                        for (int i = 0; i < line_count; i++)
                        {
                            line[i] = Stream_reader.ReadDouble();
                        }
                        _data.Add(line);
                    }
                }
                catch (EndOfStreamException e)
                {
                    if (line.Any(value => value != 0)) //Проверяю, что в файле целое количество строк
                    {
                        throw new EndOfStreamException("Неожиданное окончание файла");
                    }
                }
            }
        }
0
 Аватар для агерон
447 / 300 / 65
Регистрация: 12.10.2009
Сообщений: 1,162
19.01.2018, 00:55
зачем вы придумываете велосипеды? возьмите EF6+CodeFirst+SQLLite и будет вам счастье
0
Эксперт .NET
 Аватар для Wolfdp
3789 / 1766 / 371
Регистрация: 15.06.2012
Сообщений: 6,543
Записей в блоге: 3
19.01.2018, 02:09
Можно код модели, которую пытаетесь сохранить? Не приведеную "для упаковки", а тупо то, что используется в коде.
0
5 / 5 / 2
Регистрация: 17.11.2016
Сообщений: 69
19.01.2018, 15:00  [ТС]
Wolfdp,
C#
1
2
3
4
5
 public partial class DataSets: IDataSets//, ISerializable
    {
        private List<double[]> _data = new List<double[]>();
        private Dictionary<string, int> _DataParameterIndex;
    }
Это все данные в модели.

агерон, Спасибо, за идею, но CodeFisrt и работа с БД, для меня не самое легкое занятие, поэтому я эту идею оставлю на крайний случай.

П.С. Последний мой вариант, на самом деле очень хорошо себя показал, все стало быстро и экономно по вместительности.

П.С.С. Но теперь я понял, что мне надо будет в дальнейшем сохранять данный объем данных как часть сложного класса.
И что делать тогда я не знаю...
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
19.01.2018, 15:00
Помогаю со студенческими работами здесь

Хранение больших объемов данных в файлах.
Добрый день. Столкнулся с проблемой необходимо хранить и обработывать большое количество массивов, решил что эфферктивно создать в...

Сохранение больших объемов данных в indexeddb
Мне нужно сохранить в indexeddb 50000 записей. Это можно сделать только вызывая store.add для каждого элемента массива или существует еще...

Добавление больших объемов данных
Доброго времени суток. Разрабатываю веб-приложение, в качестве бд использую MS SQL для доступа к данным Entity. Мне нужно загрузить 93к...

Добавление в бд больших объемов данных
В бд есть 1 таблица, 31 столбец. С помощь php в запросе добавляются данные. Данные берутся не откуда то, а именно в коде рукой пишется, что...

Хранение больших объемов данных
Всем доброго времени суток и всех с Праздником Победы!)) Сразу к делу) Есть программа (точнее сайт на ASP.NET), есть таблица с данными...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru