Написал скрипт для поиска дубликатов файлов, как ёё можно улучшить

@webiswork · Регистрация: 04.03.2018

Студворк — интернет-сервис помощи студентам

Написал программу для поиска дубликатов файлов, как ёё можно улучшить, не упустил ли я какие-то не очевидные моменты которые могут привести к некорректной работе скрипта?

Листинг filecompare.py (нужно придумать название получше)

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
from os.path import exists, isfile, getsize
 
import hashlib #######
 
class FileNotExist(Exception):
    pass
 
class NotFile(Exception):
    pass
 
class FileDifferentSize(Exception):
    pass
 
class SameFile(Exception):
    pass
 
def gethashfile(path):
    
    BUF_SIZE = 65536
 
    md5 = hashlib.md5()
    sha1 = hashlib.sha1()
 
    with open(path, 'rb') as f:
        while True:
            data = f.read(BUF_SIZE)
            if not data:
                break
            md5.update(data)
            sha1.update(data)
 
    return (md5.hexdigest(), sha1.hexdigest())
 
 
def isFilesSame(firstPath, secondPath):
 
    if exists(firstPath) != True or exists(secondPath) != True:
        raise FileNotExist('File not exist')
 
    if firstPath == secondPath:
        raise SameFile('File are same')
 
    if isfile(firstPath) != True or isfile(secondPath) != True:
        raise NotFile('It is not a file')
 
    if getsize(firstPath) != getsize(secondPath) or getsize(firstPath) == 0 or getsize(secondPath) == 0:
        raise FileDifferentSize('Files are different')
 
    firstFileSize = getsize(firstPath)
    secondFileSize = getsize(secondPath)
    
    firstFileRead = 0 #bytes
    secondFileRead = 0 #bytes
 
    with open(firstPath, "rb") as firstFile, open(secondPath, "rb") as secondFile:
        for first, second in zip(firstFile, secondFile):
 
            if first == second:
                firstFileRead += len(first)
                secondFileRead += len(second)
            else:
                print('Check: File are different!')
                
    if firstFileRead == firstFileSize == secondFileRead == secondFileSize and firstFileSize > 0:
        hashFirstFile = gethashfile(firstPath) #########
        hashSecondFile = gethashfile(secondPath) #######
 
        if hashFirstFile == hashSecondFile: ############
            print("\nYes, files are identical ({2} == {3}):\n{0}\n{1}\n".format(firstPath, secondPath, firstFileSize, secondFileSize))
            return True
 
if __name__ == "__main__":
    firstPath = input()
    secondPath = input()
 
    isFilesSame(firstPath, secondPath)

Листинг главного файла

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
from os.path import exists, isfile, getsize
from os.path import join as path_join
from os import listdir
 
import filecompare
 
def checkDuplicates(path):
    files = []
 
    for item in listdir(path):
        filePath = path_join(path, item)
        
        if isfile(filePath) == True:
            files.append((item, getsize(filePath)))
 
    return files
 
path = r'C://Temp/'
 
files = checkDuplicates(path)
files = sorted(files, key=lambda size: size[-1])[::-1]
 
previousFilePath = None
previousFileSize = None
 
for currentFile, currentFileSize in files:
    currentFilePath = path_join(path, currentFile)
 
    if currentFileSize == previousFileSize:
        print('OK found, wait I check now.')
        print(filecompare.isFilesSame(previousFilePath, currentFilePath))
    else:
        information = "==========\nNothing Check (Size is different):\n{0} ({2} bytes)\n{1} ({3} bytes)\n==========\n"
        print(information.format(previousFilePath, currentFilePath, previousFileSize, currentFileSize))
 
    previousFilePath = currentFilePath
    previousFileSize = currentFileSize
 
    input("Move Next?\n")

@Garry Galler · 05.03.2018, 01:19

Сообщение от webiswork

не упустил ли я какие-то не очевидные моменты

Производительность.
Не имеет смысла вычислять хэш всего объема каждого файла. По крайней мере, сразу.
Зачем вычислять хэши разными алгоритмами?

Сколько времени работает ваш код, скажем, на нескольких тысячах файлах общим размером в 5 Gb?
Лучшие варианты алгоритма поиска дубликатов работают несколько секунд на таком объеме. Сравните - и вы узнаете насколько эффективный вы написали код.

Добавлено через 15 минут
P.S. Похоже я ошибся насчет 5 Gb - и в быстрых алгоритмах (примеры которых я видел) речь шла о 5 Tb.

Новые блоги и статьи Все статьи Все блоги /
Контроль заполнения и очистка дат в зависимости от значения перечислений Maks 12.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .	Архитектура слоя интернета для сервера-слоя. Hrethgir 11.04.2026 В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .	Подстановка значения реквизита справочника в табличную часть документа Maks 10.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .	Очистка реквизитов документа при копировании Maks 09.04.2026 Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий anaschu 08.04.2026 https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI	Блокировка документа от изменений, если он открыт у другого пользователя Maks 08.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .	Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка. Hrethgir 08.04.2026 Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .	Модель ЗдрввоСохранения 7: больше работников, больше ресурсов. anaschu 08.04.2026 работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ