Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.86/7: Рейтинг темы: голосов - 7, средняя оценка - 4.86
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16

Найти в txt одинаковые email и удалить

17.03.2018, 22:34. Показов 1339. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Вроде задача простая, но вошел в ступор.

Можно уникальные вынести в файл. А вот как сделатЬ, чтобы задать условие, при котором этот емейл не будет добавлен в список...

А еще проверять сразу ящик на доступность и имя

Добавлено через 3 часа 5 минут
Этот код не работает почему-то

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
import os
import re
import glob
import time
from os import listdir
from os.path import isfile
from os.path import join as joinpath
 
#Запрашиваем адрес рабочей папки, вводим его в переменную path
path = str(input('Где находятся исходные файлы? : \n'))
 
#Обрабатываем введенную ссылку для получения стандартного стиля с двумя слешами
regxp = '[\w-]+[\w:]'
result = re.findall(regxp, path) #Разбиваем введенный адрес на составляющие без обратного слеша
path = '\\\\'.join(result) #Добавляем двойной слеш после каждой папки (под формат Python)
 
file_for = str(input('В какую папку будем сохранять полученные результаты? :\n'))
regxp = '[\w-]+[\w:]'
file_for_result = re.findall(regxp, path)  # Разбиваем введенный адрес на составляющие без обратного слеша
file_for_result = '\\\\'.join(file_for_result)  # Добавляем двойной слеш после каждой папки (под формат Python)
 
mail_list = str(input('Как назовем файл для результатов? :\n'))
directory_for_base = file_for_result + mail_list
print('Сохраняем все в файл: ', mail_list)
 
delete_files = int(input('Обработанные файлы удаляем? 1 - да, 2 - нет: \n'))
if delete_files == 1: #Ветка с удалением обработанных файлов
    os.chdir(path)  # Переходим по указанному адресу
    print('Считаем количество файлов для обработки... \n')
    all_files = len([name for name in os.listdir('.') if os.path.isfile(name)])  # Считаем количество файлов
    print('Предстоит обработать файлов: ', all_files)
    time.sleep(2)
    for file in glob.glob('*.*'):
        print(file)
        print('Предстоит обработать файлов: ', all_files)
        with open(file, 'r', encoding='utf8') as f:
            pars = f.read()
            reg = '[\w.-]+@[A-Za-z-]+\.[\w.]+'
            result = re.findall(reg, pars)
            print(result)
            result = str(result)
            result = result.split()
            print('В итоге получили: ', result)
            print(len(result))
            print('А теперь попробуем очистить: \n')
            finallist = []
            for i in result:
                mailadress = i.replace('[', '').replace(']', '').replace('"', '').replace(',', '').replace('\'', '')
                with open(directory_for_base, 'a', encoding='utf8') as f:
                    f.write(mailadress + '\n')
                    all_files = all_files - 1
        os.remove(file)
    clearlist = []
    with open(directory_for_base, 'r', encoding='utf8') as f:
        for line in f:
            mailadress = f.readline()
            clearlist.append(mailadress)
            print('Что получили из файла насыпью без чистки на дубли: ')
            print(clearlist)
            clearlist = list(set(clearlist))
            print('Что получили после чистки на дубли: ')
            print(clearlist)
        for i in clearlist:
            with open('ok_base.txt', 'a', encoding='utf8') as f:
                f.write(i)
    print('Все!')
 
elif delete_files == 2: #Ветка без удаления обработанных файлов
    os.chdir(path)  # Переходим по указанному адресу
    print('Считаем количество файлов для обработки... \n')
    all_files = len([name for name in os.listdir('.') if os.path.isfile(name)])  # Считаем количество файлов
    print('Предстоит обработать файлов: ', all_files)
    time.sleep(3)
    for file in glob.glob('*.*'):
        print(file)
        print('Предстоит обработать файлов: ', all_files)
        with open(file, 'r', encoding='utf8') as f:
            pars = f.read()
            reg = '[\w.-]+@[A-Za-z-]+\.[\w.]+'
            result = re.findall(reg, pars)
            print(result)
            result = str(result)
            result = result.split()
            print('В итоге получили: ', result)
            print(len(result))
            print('А теперь попробуем очистить: \n')
            finallist = []
            for i in result:
                mailadress = i.replace('[', '').replace(']', '').replace('"', '').replace(',', '').replace('\'', '')
                with open(directory_for_base, 'a', encoding='utf8') as f:
                    f.write(mailadress + '\n')
        all_files = all_files - 1
    clearlist = []
    with open(directory_for_base, 'r', encoding='utf8') as f:
        for line in f:
            mailadress = f.readline()
            clearlist.append(mailadress)
            print('Что получили из файла насыпью без чистки на дубли: ')
            print(clearlist)
            clearlist = list(set(clearlist))
            print('Что получили после чистки на дубли: ')
            print(clearlist)
        for i in clearlist:
            with open('ok_base.txt', 'a', encoding='utf8') as f:
                f.write(i)
    print('Все!')
Добавлено через 21 минуту
На больших файлах программа просто зависает

Добавлено через 4 минуты
а еще она не убивает дубли
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
17.03.2018, 22:34
Ответы с готовыми решениями:

Найти и удалить одинаковые подряд идущие одинаковые цифры в матрице
Здравствуйте. Помогите мне пожалуйста в работе с двумерным массивом. Мне нужно найти и удалить одинаковые (3 и более) подряд идущие...

Найти и удалить одинаковые ячейки
Здравствуйте !!! Возможно тема уже была я не нашел))) есть Excel файл в нем один столбец , в столбце есть одинаковые ячейки задача...

Найти одинаковые элементы, содержащиеся во всех файлах, и записать их в файл под названием result.txt
Найти одинаковые элементы, содержащиеся во всех файлах, и записать их в файл под названием result.txt Код: import random, os ...

1
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
18.03.2018, 09:01
удалить повторы из списка
Python
1
2
3
4
>>> from collections import Counter
>>> l =['qwe','qwe','wer','ert','qwe','ert']
>>> [i for i in Counter(l)]
['qwe', 'wer', 'ert']
Добавлено через 4 минуты
насчет исключений не совсем ясно. например
Python
1
2
3
4
5
6
>>> from collections import Counter
>>> l =['qwe','qwe','wer','ert','qwe','ert']
>>> depr = ['wer']
>>> [i for i in Counter(l) if not i in depr]
['qwe', 'ert']
>>>
Добавлено через 1 минуту
лучше покажите пример файла данных и что хотите иметь на выходе

Добавлено через 6 минут
Цитата Сообщение от IRIP Посмотреть сообщение
print(file)
не надо перекрывать стандартные строки питона
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
18.03.2018, 09:01
Помогаю со студенческими работами здесь

Найти и удалить одинаковые строки текста
Дан текст, состоящий из несколько вопросов(подстрок). Найти и удалить одинаковые вопросы(подстроки). Надо показать сходство в процентах и...

Найти и удалить одинаковые строки в memo
Ребят, подскажите пожалуйста решение. В поле Memo имеется текст из десятка другого строк. Требуется проверить каждую строку на предмет...

Найти и удалить все одинаковые значения в коллекции файлов
Хочу найти и удалить все одинаковые файлы. Думаю мд5 и имя каждого файла записать в динамический массив, а потом проверить. Но не...

Найти и удалить в строке одинаковые элементы, идущие друг за другом
Задание - "Разработать программу, которая вводит текст, заменяет в нем стоящие подряд одинаковые символы одним символом и подсчитывает...

Найти в массиве одинаковые элементы и удалить все, кроме одного
Добрый вечер, допустим есть массив (1, 1, 2, 2, 3, 4, 5) с такими значениями. Как написать алгоритм чтобы после работы алгоритма массив...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++
8Observer8 17.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-rectangles-sdl3-c. zip finish-rectangles-sdl3-cpp. zip
Символические и жёсткие ссылки в Linux.
algri14 15.03.2026
Существует два типа ссылок — символические и жёсткие. Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru