Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.69/13: Рейтинг темы: голосов - 13, средняя оценка - 4.69
5 / 5 / 1
Регистрация: 04.03.2018
Сообщений: 61

Написал скрипт для поиска дубликатов файлов, как ёё можно улучшить

05.03.2018, 00:04. Показов 2848. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Написал программу для поиска дубликатов файлов, как ёё можно улучшить, не упустил ли я какие-то не очевидные моменты которые могут привести к некорректной работе скрипта?

Листинг filecompare.py (нужно придумать название получше)
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
from os.path import exists, isfile, getsize
 
import hashlib #######
 
class FileNotExist(Exception):
    pass
 
class NotFile(Exception):
    pass
 
class FileDifferentSize(Exception):
    pass
 
class SameFile(Exception):
    pass
 
def gethashfile(path):
    
    BUF_SIZE = 65536
 
    md5 = hashlib.md5()
    sha1 = hashlib.sha1()
 
    with open(path, 'rb') as f:
        while True:
            data = f.read(BUF_SIZE)
            if not data:
                break
            md5.update(data)
            sha1.update(data)
 
    return (md5.hexdigest(), sha1.hexdigest())
 
 
def isFilesSame(firstPath, secondPath):
 
    if exists(firstPath) != True or exists(secondPath) != True:
        raise FileNotExist('File not exist')
 
    if firstPath == secondPath:
        raise SameFile('File are same')
 
    if isfile(firstPath) != True or isfile(secondPath) != True:
        raise NotFile('It is not a file')
 
    if getsize(firstPath) != getsize(secondPath) or getsize(firstPath) == 0 or getsize(secondPath) == 0:
        raise FileDifferentSize('Files are different')
 
    firstFileSize = getsize(firstPath)
    secondFileSize = getsize(secondPath)
    
    firstFileRead = 0 #bytes
    secondFileRead = 0 #bytes
 
    with open(firstPath, "rb") as firstFile, open(secondPath, "rb") as secondFile:
        for first, second in zip(firstFile, secondFile):
 
            if first == second:
                firstFileRead += len(first)
                secondFileRead += len(second)
            else:
                print('Check: File are different!')
                
    if firstFileRead == firstFileSize == secondFileRead == secondFileSize and firstFileSize > 0:
        hashFirstFile = gethashfile(firstPath) #########
        hashSecondFile = gethashfile(secondPath) #######
 
        if hashFirstFile == hashSecondFile: ############
            print("\nYes, files are identical ({2} == {3}):\n{0}\n{1}\n".format(firstPath, secondPath, firstFileSize, secondFileSize))
            return True
 
if __name__ == "__main__":
    firstPath = input()
    secondPath = input()
 
    isFilesSame(firstPath, secondPath)
Листинг главного файла

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
from os.path import exists, isfile, getsize
from os.path import join as path_join
from os import listdir
 
import filecompare
 
def checkDuplicates(path):
    files = []
 
    for item in listdir(path):
        filePath = path_join(path, item)
        
        if isfile(filePath) == True:
            files.append((item, getsize(filePath)))
 
    return files
 
path = r'C://Temp/'
 
files = checkDuplicates(path)
files = sorted(files, key=lambda size: size[-1])[::-1]
 
previousFilePath = None
previousFileSize = None
 
for currentFile, currentFileSize in files:
    currentFilePath = path_join(path, currentFile)
 
    if currentFileSize == previousFileSize:
        print('OK found, wait I check now.')
        print(filecompare.isFilesSame(previousFilePath, currentFilePath))
    else:
        information = "==========\nNothing Check (Size is different):\n{0} ({2} bytes)\n{1} ({3} bytes)\n==========\n"
        print(information.format(previousFilePath, currentFilePath, previousFileSize, currentFileSize))
 
    previousFilePath = currentFilePath
    previousFileSize = currentFileSize
 
    input("Move Next?\n")
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
05.03.2018, 00:04
Ответы с готовыми решениями:

Написал скрипт для регистрации пользователей, хочу его улучшить
1. Можно ли выполнять проверку введенных пользователей таким способом? Может быть использовать if/elseif или вложенные if/else. Какой...

Верно ли я написал программу? Как можно улучшить?
Само задание - https://dropmefiles.com/jkaXm Мой код на языке СИ: #include <stdio.h> #include <math.h> int input() { int...

Я написал программу (вычисление среднего арифметического). Как можно ее улучшить?
Написал простенькую программу по вычислению среднего арифметического из суммы не более чем двадцати вещественных чисел. Как можно сделать,...

1
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
05.03.2018, 01:19
Цитата Сообщение от webiswork Посмотреть сообщение
не упустил ли я какие-то не очевидные моменты
Производительность.
Не имеет смысла вычислять хэш всего объема каждого файла. По крайней мере, сразу.
Зачем вычислять хэши разными алгоритмами?

Сколько времени работает ваш код, скажем, на нескольких тысячах файлах общим размером в 5 Gb?
Лучшие варианты алгоритма поиска дубликатов работают несколько секунд на таком объеме. Сравните - и вы узнаете насколько эффективный вы написали код.

Добавлено через 15 минут
P.S. Похоже я ошибся насчет 5 Gb - и в быстрых алгоритмах (примеры которых я видел) речь шла о 5 Tb.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
05.03.2018, 01:19
Помогаю со студенческими работами здесь

Сравнивать имена файлов для поиска дубликатов
Имена файлов в виде названия книги например. Кроме этого в строке может быть автор и год. Название может быть укороченное у одного файла, а...

Как можно улучшить скрипт?
Всем привет. В универ надо написать доклад. Решил, что посвящу его брутфорсу на пхп, работающий через MySQL. Скрипт полностью...

Написал функцию поочерёдное появление картинок, всё ли верно? Можно улучшить?
/* ========================================================================== Если поддерживает браузер прозрачность ...

Ваш СОВЕТ! Написал функции, можно ли их улучшить? Или всё отлично?
/* ========================================================================== Функция фильтрует переменную $variable_input...

Нужно улучшить скрипт на распаковку файлов (Питон скрипт)
Мне нужна помощь. В интернете я нашёл нужный скрипт, но функционал хотелось бы улучшить В этом скрипте мне нужно сделать счётчик...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
Влияние грибов на сукцессию
anaschu 26.01.2026
Бифуркационные изменения массы гриба происходят тогда, когда мы уменьшаем массу компоста в 10 раз, а скорость прироста биомассы уменьшаем в три раза. Скорость прироста биомассы может уменьшаться за. . .
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip" Извлеките архив и вы увидите. . .
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д. Сборка примера Скачайте. . .
Использование SDL3-callbacks вместо функции main() на Android, Desktop и WebAssembly
8Observer8 24.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru