Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/7: Рейтинг темы: голосов - 7, средняя оценка - 5.00
1 / 1 / 0
Регистрация: 05.11.2011
Сообщений: 14
.NET 4.x

Как лучше работать с несколькими миллионами строк

05.11.2011, 08:26. Показов 1370. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте!

Простите, если вопрос совсем глупый. Но если не трудно, направьте в нужную сторону, пожалуйста.

Итак, стоит передо мной задача (вообще, я админ) проанализировать журнал(лог) прокси сервера. При этом агрегировать похожие записи. Т.е. допустим, в течение дня Вася ходил на Яндекс 20 раз, на Гугл - 10, на третий сайт 15 итд. Мы в итоговый массив данных будем не каждую новую строчку заносить, а добавлять к уже существующей объем скачанного.

Проблема в том, что Вась имеем несколько десятков тысяч, а строчек несколько десятков миллионов (в день). Алгоритм который работал на предыдущей работе тут не справляется

Я делал многомерный массив, 5 (пользователь, сайт, байтысюда, байтытуда, времяобработки ) на 3.000.000 элементов.

Потом построчно считываем файл журнала и на каждой строчке делаем проверку - если уже есть такой же пользователь+сайт, то добавляем к нему, если нет, заносим новый элемент.

Работает это всё нестабильно. Если количество уникальных пар пользователь+сайт меньше 500 тысяч, всё летает. Но когда их становится миллион или 2.5млн, то обрабатывается всё по 8-10 часов. А это слишком медленно.

Пробовал оптимизировать, но результат всё-равно не устраивает.
Сначала перебор записей делал по циклу for от начала до конца, когда
нашли запись, break. Потом поменял на Array.Indexof (для этого пришлось завести 4 массива, в одном одной строкой пользователь+сайт - по нему и ищет Array.Indexof, в остальных байты и время. Стало быстрее раз в 10, но всё-равно по нескольку часов думает.

Дальше уже какие-то грязные хаки пошли - маленькие сайты я добавляю под именем other, но это уже попытки уменьшить размер конечного массива, а не оптимизация.

Посоветуйте, пожалуйста, что ещё попробовать?
Чтобы был быстрый поиск строки в массиве, но при этом и возможности менять строки. То есть stringbuilder не подходит (вроде).

Dataset тоже умрет на таких объемах, по-моему, если сначала загрузить все несколько миллионов записей, а потом пытаться агрегировать. А если каждый раз select дергать, то, подозреваю, что тоже всё очень медленно будет.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
05.11.2011, 08:26
Ответы с готовыми решениями:

Как работать с несколькими namespace
Подскажите пожалуйста, сейчас в программе namespace WindowsFormsApplication1 Можно ли как то сделать, чтобы было одновременно несколько...

Операция Zip над миллионами строк
Собственно реализованная задача чисто тестовая - проверить как операция Zip из LINQ работает с огромными последовательностями. Для теста...

QsqlLite как работать с несколькими БД?
QSqlDatabase db; QSqlDatabase db2; db = QSqlDatabase::addDatabase("QSQLITE"); db.setDatabaseName("save/db3.db"); ...

3
Эксперт .NET
 Аватар для kolorotur
17823 / 12973 / 3382
Регистрация: 17.09.2011
Сообщений: 21,261
05.11.2011, 10:32
Вместо многомерного массива создайте класс или структуру для хранения информации.
Потом создайте список этих структур или даже словарь, если имена пользователей уникальны.

Если используете список, то поиск проводите через LINQ, если словарь, то делайте выборку по ключу.

Ну и хотелось бы глянуть на то, как устроен парсинг логов - заторы могут быть и там.
0
Почетный модератор
Эксперт по компьютерным сетямЭксперт Windows
 Аватар для magirus
28049 / 15785 / 983
Регистрация: 15.09.2009
Сообщений: 67,752
Записей в блоге: 78
05.11.2011, 10:42
а почему бы не использовать базу данных?
0
1 / 1 / 0
Регистрация: 05.11.2011
Сообщений: 14
06.11.2011, 11:53  [ТС]
Цитата Сообщение от magirus Посмотреть сообщение
а почему бы не использовать базу данных?
Нерационально загонять в SQL несколько гигабайт в сутки, чтобы оно потом сразу же удалялось, оставляя в итоге те же несколько килобайт информации.

Добавлено через 1 минуту
Цитата Сообщение от kolorotur Посмотреть сообщение
Вместо многомерного массива создайте класс или структуру для хранения информации.
Потом создайте список этих структур или даже словарь, если имена пользователей уникальны.

Если используете список, то поиск проводите через LINQ, если словарь, то делайте выборку по ключу.

Ну и хотелось бы глянуть на то, как устроен парсинг логов - заторы могут быть и там.
Большое спасибо за совет. Засунуть структуру в словарь не получилось, но даже просто перейдя на словарь прирост получился колоссальным - теперь любой файл за несколько секунд обрабатывается.
Задача решена, благодарю!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
06.11.2011, 11:53
Помогаю со студенческими работами здесь

Sqllite как работать с несколькими БД?
Мне нужно работать с несколькими базами данных QSqlDatabase db,db2; db = QSqlDatabase::addDatabase("QSQLITE"); ...

Как работать с несколькими книгами Excel
Здравствуйте ВСЕ. Подскажите как решить следующую задачу. Есть несколько файлов Excel (1.xls,2.xls..... N.xls). Небходимо поочередно...

Как работать в ListBox с несколькими столбцами
Есть ListBox с 4 столбцами (ColumnCount = 4) Есть 4 массива данных: элементу 1 первого массива соответствует элемент 1 второго, третьего...

Delphi и excel как работать с несколькими листами?
Как можно работать в Delphi с excel файлом, состоящим из нескольких листов? Сейчас программа осуществляет поиск информации на листе (этот...

Qt. как в протоколе UDP работать с несколькими сокетами?
Доброго времени суток! Есть приложение, которое постоянно принимает данные и может работать на передачу. Для это сделан 1 сокет. Можно ли...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru