Форум программистов, компьютерный форум, киберфорум
Алгоритмы
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.71/14: Рейтинг темы: голосов - 14, средняя оценка - 4.71
62 / 60 / 3
Регистрация: 06.11.2010
Сообщений: 185
Записей в блоге: 1

Нужен алгоритм поиска дубликатов файлов

06.11.2010, 02:42. Показов 3002. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Сразу скажут что один алгоритм я уже осуществил, но других алгоритмов я не знаю, просто интуитивно понял.
1. Имеется окно для drag-and-drop каталогов, куда перетягиваются каталоги и далее происходит поиск в цикле файлов по каждому добавленному каталогу.
2. Для того, чтоб не хэшировать все файлы, а только дубликаты, то сначала за первый проход создаётся массив (размер в байтах|путь)
3. Далее сортировка массива по размеру (время выполнения пропорционально квадрату кол. элементов).
4. Далее цикл проверяющий повтор размера, т.е. в цикле перебирается каждый элемент массива с хранением в цикле предыдущего элемента массива. При совпадении предыдущего и последующего элемента массива (совпадение размеров) происходит создание временного массива в который добавляется текущий и предыдущий элемент. За счёт тригеров происходит переключение состояния цикла "режим совпадения" при последующем совпадении добавляется только текущий элемент. Если последующий элемент несовпадает, то происходит переключение на временно созданный массив.
5. Временно созданный массив - это массив хэш MD5 (хэш MD5|путь). Предыдущий цикл прерывается на обработку временного цикла, который аналогичен с массивом размера/пути, т.е. в цикле проверяется совпадение MD5 и если оно происходит, то в ListView добавляется группы совпавших MD5, вернее пути с Checkbox.
6. Все дубликаты, кроме первого помечаются галочками.

При тесте выяснил, что торможение создаёт обновление окна.
В чистов виде (только поиск дубликатов без вывода чекбоксов и строки состояния) каталог Windows (12000 файлов) обрабатывается за 30 сек. После добавления стилей ListView (первый дубликат отличается по цвету и фону и расстановка галочек) и вывода в строку состояния статистику по каждому файлу в момент перебора в цикле (имя/всего файлов/кол. совп. по разм./кол. дубликатов/время) увеличилось время обработки до 2,5 минут.

Интересуют другие варианты алгоритма или способ оптимизировать скорость выполнения.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
06.11.2010, 02:42
Ответы с готовыми решениями:

Алгоритм поиска дубликатов файлов
Подскажите алгоритм поиска дубликатов файлов, я не могу придумать нормальный. Моя идея - просканировать все файлы, добавить их в массив,...

Нужен алгоритм поиска кординат точки
Нужна помощь по решению такой задачи. Нужно найти координаты точки B, расположенной максимально близко к точке А и находящейся в окружности...

Утилита проверки целостности файлов и поиска дубликатов
Пишу корсовой на тему проверки целостности файлов и поиска дубликатов. Думаю, что буду использовать формирование контрольных сумм с помощью...

2
Эксперт С++
 Аватар для odip
7176 / 3234 / 82
Регистрация: 17.06.2009
Сообщений: 14,164
06.11.2010, 13:55
Далее сортировка массива по размеру (время выполнения пропорционально квадрату кол. элементов).
quicksort дает n*log2(n) действий
В чистов виде (только поиск дубликатов без вывода чекбоксов и строки состояния) каталог Windows (12000 файлов) обрабатывается за 30 сек.
Чего-то долго
Сколько раз при этому вычисляется MD5 ?

Вообще стоит наверное сделать отдельный поток вычисления дубликатов
Чтобы GUI не подвисал на время счета
0
62 / 60 / 3
Регистрация: 06.11.2010
Сообщений: 185
Записей в блоге: 1
06.11.2010, 16:17  [ТС]
Сколько раз при этому вычисляется MD5 ?
примерно 3000 файлов, посмотреть и попробовать можно здесь. Вообще то я сравнивал с другой прогой, результаты приблизительно одинаковые, хотя многое зависит от отдельных этапов. Например CloneSpy быстрее и удобнее, проверил ту же папку Windows за 12 сек.
Вообще стоит наверное сделать отдельный поток вычисления дубликатов
это к сожалению не получится, так как использую AutoIt3, в нём нет многопоточности. В конце каждого цикла/файла обновляется вывод в строку состояния. Могу разгрузить обновление гуи за счёт вывода данных для файлов проверяемых MD5, а не всех подряд. Всё равно они слишком быстро мелькают, а те что вычисляются c MD5 можно успеть прочитать.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
06.11.2010, 16:17
Помогаю со студенческими работами здесь

Разработка программы (процедуры) поиска дубликатов файлов на диске
Помогите пожалуйста разработать программу. Выполняться она должна на одном из языков высокого уровня (Delphi, Pascal, C++ и т.п. Может у...

Нужен алгоритм поиска пути в этом лабиринте (будь то волновой алгоритм или алгоритм правой/левой руки )
#include "stdafx.h" #include <iostream> #include <conio.h> using namespace std; void lab () { int s1 = 0; int s2 =...

Написал скрипт для поиска дубликатов файлов, как ёё можно улучшить
Написал программу для поиска дубликатов файлов, как ёё можно улучшить, не упустил ли я какие-то не очевидные моменты которые могут привести...

Нужен Алгоритм поиска
Привет ребят. Начальство сказало написать сайт, в которым должны быть строки поиска, в которые вводишь информацию, а он автоматически...

Алгоритм поиска файлов!
Понадобилась такая программа, перебирает файлы включая субдиректории...Может есть какой-н контрол?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
SDL3 для Web (WebAssembly): Работа со звуком через SDL3_mixer
8Observer8 08.02.2026
Содержание блога Пошагово создадим проект для загрузки звукового файла и воспроизведения звука с помощью библиотеки SDL3_mixer. Звук будет воспроизводиться по клику мышки по холсту на Desktop и по. . .
SDL3 для Web (WebAssembly): Основы отладки веб-приложений на SDL3 по USB и Wi-Fi, запущенных в браузере мобильных устройств
8Observer8 07.02.2026
Содержание блога Браузер Chrome имеет средства для отладки мобильных веб-приложений по USB. В этой пошаговой инструкции ограничимся работой с консолью. Вывод в консоль - это часть процесса. . .
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru