|
0 / 0 / 0
Регистрация: 05.01.2019
Сообщений: 3
|
|
Обработка огромных файлов05.01.2019, 09:19. Показов 911. Ответов 5
Метки нет (Все метки)
Есть 2 файла бд по 130 млн записей, один вида: id:hash, второй hash:unhash
Задача такова, значение hash каждой строке найти и заменить на unhash из другого файла. Какие вообще есть варианты решения ? Добавлено через 3 минуты вариант был грузить hash:unhash в Dictionary, но тут ексепшн out memory
0
|
|
| 05.01.2019, 09:19 | |
|
Ответы с готовыми решениями:
5
Обработка текстовых файлов Обработка текстовых файлов Многопоточная обработка мелких файлов |
|
|
||
| 05.01.2019, 10:18 | ||
|
Вариант2: отсортировать оба файла по полю hash. И затем делать замену, подгружая файлы частями. Сортировку можно сделать через Merge Sort, который позволяет сортировать большие объемы данных. PS и да, 130 млн записей это не так уж и много. Если организовать их хранение оптимальным образом, то это замену можно сделать и в лоб, с полной загрузкой в память, я так думаю.
0
|
||
|
907 / 664 / 318
Регистрация: 23.10.2016
Сообщений: 1,543
|
|
| 05.01.2019, 10:25 | |
|
Можно составить Dictionary hash -> позиция unhash во втором файле, если это в память влезет конечно
0
|
|
|
0 / 0 / 0
Регистрация: 05.01.2019
Сообщений: 3
|
|
| 05.01.2019, 15:30 [ТС] | |
|
Storm23, на данный момент импортируется в бд.
По поводу второго варианта, отсортировал оба файла по hash. Далее думаю разбить второй файл на несколько частей, искать по hash и удалять найденную строку. По поводу оптимального хранения, можете подробнее ?
0
|
|
|
|
||
| 05.01.2019, 15:40 | ||
|
Если хеш числовой или 16-ричный, то его выгоднее хранить как число а не как строку. То же самое касается Id. Кроме того, строки хранятся в кодировке UTF-16 и занимают по 2 байта на символ. Можно сделать свой тип, в котором каждый символ будет занимать один байт. Кроме того, для хранения словаря можно использовать префиксное дерево, которое в общем случае требует меньше памяти чем хранение пар id:id.
0
|
||
|
0 / 0 / 0
Регистрация: 05.01.2019
Сообщений: 3
|
|
| 05.01.2019, 15:54 [ТС] | |
|
Storm23, второй файл хранит данные md5hash(password):password
В первом файле я условно назвал id, может быть и name,sname и т.п
0
|
|
| 05.01.2019, 15:54 | |
|
Помогаю со студенческими работами здесь
6
Чтение и обработка больших файлов Обработка файлов в контекстном меню Параллельная обработка очереди файлов Считывание и обработка большого количества файлов в папке Подскажите паттерн для задачи (многопоточное чтение и обработка файлов) Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++
8Observer8 17.03.2026
Содержание блога
Финальные проекты на Си и на C++:
finish-rectangles-sdl3-c. zip
finish-rectangles-sdl3-cpp. zip
|
Символические и жёсткие ссылки в Linux.
algri14 15.03.2026
Существует два типа ссылок — символические и жёсткие.
Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .
|
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ВВЕДЕНИЕ
Выполняя задание на управление насосной группой заполнения резервуара,. . .
|
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
|
|
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога
Финальные проекты на Си и на C++:
hello-sdl3-c. zip
hello-sdl3-cpp. zip
Результат:
|
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога
MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
|
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд.
Даже если у вас. . .
|
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает
монорепозиторий в котором находятся все исходники.
При создании нового решения, мы просто добавляем нужные проекты
и имеем. . .
|