Форум программистов, компьютерный форум, киберфорум
C++ Builder
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.54/13: Рейтинг темы: голосов - 13, средняя оценка - 4.54
0 / 0 / 0
Регистрация: 30.01.2014
Сообщений: 8

Удаление повторяющихся строк в txt файле, с учетом производительности (в больших файлах)

15.10.2015, 12:34. Показов 2760. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день!
Помогите пожалуйста.
Задача: удаление дубликатов в очень больших текстовых фалах(Миллион записей).
Как реализовать с минимальной нагрузкой на ОЗУ?
Можно ли удалять никуда не загружая весь файл?
Подскажите хотя бы куда копать.., буду очень благодарен если подскажите с реализацией.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
15.10.2015, 12:34
Ответы с готовыми решениями:

Удаление повторяющихся строк в файле
Aлгоритм удаления повторяющихся строк из файла подскажите, ато недогоняю. Как именно сравнить строки в файле, т.е. у меня получается...

Удаление нужных строк в файле .txt
Доброго времени суток! Подскажите пожалуйста текст батника, который бы анализировал ряд файлов в папке "links_skipped.txt" и...

Скрипт - удаление строк, которые содержат определенный символ в файле .txt
Товарищи, приветствую. Нужна ваша помощь. Честно пытался сам разобраться, гуглил, читал много разных тем - потратил пол дня на работе,...

3
3176 / 1935 / 312
Регистрация: 27.08.2010
Сообщений: 5,131
Записей в блоге: 1
15.10.2015, 12:56
Цитата Сообщение от ReInception Посмотреть сообщение
куда копать
Строите уникальный индекс. Далее - по потребности.

Простейший вариант - использование быстрой хэш-функции с хорошей диффузией (ex. Murmur128, cityhash128 etc.)

Не по теме:

WordLister Lite с картой lister_map_full_row.xlt соберет все уникальные текстовые строки.

1
0 / 0 / 0
Регистрация: 30.01.2014
Сообщений: 8
15.10.2015, 15:44  [ТС]
Не сталкивался с хеш ф-циями, знания тут только поверхностные, я новичок. Примеров не могу найти. Обсуждения видел но увы не многое понял...

Добавлено через 25 минут
Что бы вы поняли мой уровень сейчас я удаляю дубликаты в файле вот так:
C++
1
2
3
4
5
TStringList *mlist= new TStringList;
mlist->Sorted = true;
mlist->Duplicates = dupIgnore;
mlist->LoadFromFile(Edit1->Text);
mlist->SaveToFile(Edit1->Text);
0
3176 / 1935 / 312
Регистрация: 27.08.2010
Сообщений: 5,131
Записей в блоге: 1
15.10.2015, 16:45
Цитата Сообщение от ReInception Посмотреть сообщение
Не сталкивался с хэш ф-циями
Достаточно знать, что они есть, их внутреннее устройство сейчас неважно. Про TStringList забудьте, строки нужны только на этапе вычисления хэша, далее работаете только с ним, 128-битного хэша должно быть достаточно (Lister использует 160-битный, но это медленнее).
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
15.10.2015, 16:45
Помогаю со студенческими работами здесь

Поиск строк в одном txt-файле и добавление этих строк в другой txt-файл
Добрый день! Помогите, пожалуйста, разобраться. У меня лог файл, из которого мне нужно получить строки, в которых содержится...

Подсчёт повторяющихся слов в файле txt
Сделал программу которая через кнопку открывает файл и через кнопку "поиск" подчеркивает слова желтым Нужна помощь надо чтобы еще...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru