Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.69/13: Рейтинг темы: голосов - 13, средняя оценка - 4.69
5 / 5 / 1
Регистрация: 04.03.2018
Сообщений: 61

Написал скрипт для поиска дубликатов файлов, как ёё можно улучшить

05.03.2018, 00:04. Показов 2925. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Написал программу для поиска дубликатов файлов, как ёё можно улучшить, не упустил ли я какие-то не очевидные моменты которые могут привести к некорректной работе скрипта?

Листинг filecompare.py (нужно придумать название получше)
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
from os.path import exists, isfile, getsize
 
import hashlib #######
 
class FileNotExist(Exception):
    pass
 
class NotFile(Exception):
    pass
 
class FileDifferentSize(Exception):
    pass
 
class SameFile(Exception):
    pass
 
def gethashfile(path):
    
    BUF_SIZE = 65536
 
    md5 = hashlib.md5()
    sha1 = hashlib.sha1()
 
    with open(path, 'rb') as f:
        while True:
            data = f.read(BUF_SIZE)
            if not data:
                break
            md5.update(data)
            sha1.update(data)
 
    return (md5.hexdigest(), sha1.hexdigest())
 
 
def isFilesSame(firstPath, secondPath):
 
    if exists(firstPath) != True or exists(secondPath) != True:
        raise FileNotExist('File not exist')
 
    if firstPath == secondPath:
        raise SameFile('File are same')
 
    if isfile(firstPath) != True or isfile(secondPath) != True:
        raise NotFile('It is not a file')
 
    if getsize(firstPath) != getsize(secondPath) or getsize(firstPath) == 0 or getsize(secondPath) == 0:
        raise FileDifferentSize('Files are different')
 
    firstFileSize = getsize(firstPath)
    secondFileSize = getsize(secondPath)
    
    firstFileRead = 0 #bytes
    secondFileRead = 0 #bytes
 
    with open(firstPath, "rb") as firstFile, open(secondPath, "rb") as secondFile:
        for first, second in zip(firstFile, secondFile):
 
            if first == second:
                firstFileRead += len(first)
                secondFileRead += len(second)
            else:
                print('Check: File are different!')
                
    if firstFileRead == firstFileSize == secondFileRead == secondFileSize and firstFileSize > 0:
        hashFirstFile = gethashfile(firstPath) #########
        hashSecondFile = gethashfile(secondPath) #######
 
        if hashFirstFile == hashSecondFile: ############
            print("\nYes, files are identical ({2} == {3}):\n{0}\n{1}\n".format(firstPath, secondPath, firstFileSize, secondFileSize))
            return True
 
if __name__ == "__main__":
    firstPath = input()
    secondPath = input()
 
    isFilesSame(firstPath, secondPath)
Листинг главного файла

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
from os.path import exists, isfile, getsize
from os.path import join as path_join
from os import listdir
 
import filecompare
 
def checkDuplicates(path):
    files = []
 
    for item in listdir(path):
        filePath = path_join(path, item)
        
        if isfile(filePath) == True:
            files.append((item, getsize(filePath)))
 
    return files
 
path = r'C://Temp/'
 
files = checkDuplicates(path)
files = sorted(files, key=lambda size: size[-1])[::-1]
 
previousFilePath = None
previousFileSize = None
 
for currentFile, currentFileSize in files:
    currentFilePath = path_join(path, currentFile)
 
    if currentFileSize == previousFileSize:
        print('OK found, wait I check now.')
        print(filecompare.isFilesSame(previousFilePath, currentFilePath))
    else:
        information = "==========\nNothing Check (Size is different):\n{0} ({2} bytes)\n{1} ({3} bytes)\n==========\n"
        print(information.format(previousFilePath, currentFilePath, previousFileSize, currentFileSize))
 
    previousFilePath = currentFilePath
    previousFileSize = currentFileSize
 
    input("Move Next?\n")
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
05.03.2018, 00:04
Ответы с готовыми решениями:

Написал скрипт для регистрации пользователей, хочу его улучшить
1. Можно ли выполнять проверку введенных пользователей таким способом? Может быть использовать if/elseif или вложенные if/else. Какой...

Верно ли я написал программу? Как можно улучшить?
Само задание - https://dropmefiles.com/jkaXm Мой код на языке СИ: #include <stdio.h> #include <math.h> int input() { int...

Я написал программу (вычисление среднего арифметического). Как можно ее улучшить?
Написал простенькую программу по вычислению среднего арифметического из суммы не более чем двадцати вещественных чисел. Как можно сделать,...

1
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
05.03.2018, 01:19
Цитата Сообщение от webiswork Посмотреть сообщение
не упустил ли я какие-то не очевидные моменты
Производительность.
Не имеет смысла вычислять хэш всего объема каждого файла. По крайней мере, сразу.
Зачем вычислять хэши разными алгоритмами?

Сколько времени работает ваш код, скажем, на нескольких тысячах файлах общим размером в 5 Gb?
Лучшие варианты алгоритма поиска дубликатов работают несколько секунд на таком объеме. Сравните - и вы узнаете насколько эффективный вы написали код.

Добавлено через 15 минут
P.S. Похоже я ошибся насчет 5 Gb - и в быстрых алгоритмах (примеры которых я видел) речь шла о 5 Tb.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
05.03.2018, 01:19
Помогаю со студенческими работами здесь

Сравнивать имена файлов для поиска дубликатов
Имена файлов в виде названия книги например. Кроме этого в строке может быть автор и год. Название может быть укороченное у одного файла, а...

Как можно улучшить скрипт?
Всем привет. В универ надо написать доклад. Решил, что посвящу его брутфорсу на пхп, работающий через MySQL. Скрипт полностью...

Написал функцию поочерёдное появление картинок, всё ли верно? Можно улучшить?
/* ========================================================================== Если поддерживает браузер прозрачность ...

Ваш СОВЕТ! Написал функции, можно ли их улучшить? Или всё отлично?
/* ========================================================================== Функция фильтрует переменную $variable_input...

Нужно улучшить скрипт на распаковку файлов (Питон скрипт)
Мне нужна помощь. В интернете я нашёл нужный скрипт, но функционал хотелось бы улучшить В этом скрипте мне нужно сделать счётчик...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru