Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/4: Рейтинг темы: голосов - 4, средняя оценка - 4.75
0 / 0 / 0
Регистрация: 05.01.2019
Сообщений: 3

Обработка огромных файлов

05.01.2019, 09:19. Показов 911. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Есть 2 файла бд по 130 млн записей, один вида: id:hash, второй hash:unhash
Задача такова, значение hash каждой строке найти и заменить на unhash из другого файла.

Какие вообще есть варианты решения ?

Добавлено через 3 минуты
вариант был грузить hash:unhash в Dictionary, но тут ексепшн out memory
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
05.01.2019, 09:19
Ответы с готовыми решениями:

Обработка текстовых файлов
Здравствуйте, у меня следующий вопрос по обработке текстовой информации есть текстовый файл следующего вида. и есть другой файл...

Обработка текстовых файлов
помогите пожалуйста!!! есть программа: Дан исходный текстовый файл: Муз.Произведения в котором: -Название -Автор -Год -Стиль ...

Многопоточная обработка мелких файлов
Добрый день! Программа через ThreadPool обрабатывает массив файлов: foreach (string file in Files) { ...

5
Эксперт .NETАвтор FAQ
 Аватар для Storm23
10427 / 5157 / 1825
Регистрация: 11.01.2015
Сообщений: 6,226
Записей в блоге: 34
05.01.2019, 10:18
Цитата Сообщение от whitedoc Посмотреть сообщение
Какие вообще есть варианты решения ?
Вариант1: импортировать оба файла в настоящую СУБД (например MSSQL) и сделать замену средствами SQL.
Вариант2: отсортировать оба файла по полю hash. И затем делать замену, подгружая файлы частями. Сортировку можно сделать через Merge Sort, который позволяет сортировать большие объемы данных.

PS и да, 130 млн записей это не так уж и много. Если организовать их хранение оптимальным образом, то это замену можно сделать и в лоб, с полной загрузкой в память, я так думаю.
0
907 / 664 / 318
Регистрация: 23.10.2016
Сообщений: 1,543
05.01.2019, 10:25
Можно составить Dictionary hash -> позиция unhash во втором файле, если это в память влезет конечно
0
0 / 0 / 0
Регистрация: 05.01.2019
Сообщений: 3
05.01.2019, 15:30  [ТС]
Storm23, на данный момент импортируется в бд.
По поводу второго варианта, отсортировал оба файла по hash. Далее думаю разбить второй файл на несколько частей, искать по hash и удалять найденную строку.

По поводу оптимального хранения, можете подробнее ?
0
Эксперт .NETАвтор FAQ
 Аватар для Storm23
10427 / 5157 / 1825
Регистрация: 11.01.2015
Сообщений: 6,226
Записей в блоге: 34
05.01.2019, 15:40
Цитата Сообщение от whitedoc Посмотреть сообщение
По поводу оптимального хранения, можете подробнее ?
Покажите ваши данные, тогда можно будет подумать как хранить оптимальнее.
Если хеш числовой или 16-ричный, то его выгоднее хранить как число а не как строку.
То же самое касается Id.
Кроме того, строки хранятся в кодировке UTF-16 и занимают по 2 байта на символ. Можно сделать свой тип, в котором каждый символ будет занимать один байт.

Кроме того, для хранения словаря можно использовать префиксное дерево, которое в общем случае требует меньше памяти чем хранение пар id:id.
0
0 / 0 / 0
Регистрация: 05.01.2019
Сообщений: 3
05.01.2019, 15:54  [ТС]
Storm23, второй файл хранит данные md5hash(password):password
В первом файле я условно назвал id, может быть и name,sname и т.п
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
05.01.2019, 15:54
Помогаю со студенческими работами здесь

Чтение и обработка больших файлов
Нужно прочитать большой файл (несколько гигабайт), поделить содержимое файла на int'ы и посчитать их сумму. Как это сделать максимально...

Обработка файлов в контекстном меню
Идеальным примером является WinRAR, при выделении файла, папки или нескольких файлов и папок и клику ПКМ есть пункт "Добавить в...

Параллельная обработка очереди файлов
Добрый день! Подскажите пожалуйста, каким образом лучше решить следующую задачу: Имеется папка, в которой периодически будут...

Считывание и обработка большого количества файлов в папке
Есть задача - в папке лежит огромный массив файлов (до нескольких тысяч размером до 10 Мб), необходимо считывать эти файлы по одному и...

Подскажите паттерн для задачи (многопоточное чтение и обработка файлов)
Добрый день! Есть следующая задача. Нужно делать многопоточную программу. 2 потока читают данные с винчестера и готовят списки данных...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++
8Observer8 17.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-rectangles-sdl3-c. zip finish-rectangles-sdl3-cpp. zip
Символические и жёсткие ссылки в Linux.
algri14 15.03.2026
Существует два типа ссылок — символические и жёсткие. Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru