С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.59/29: Рейтинг темы: голосов - 29, средняя оценка - 4.59
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431

Удалить дубликаты, перед этим объединив csv файлы

26.11.2016, 12:10. Показов 5587. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Есть csv файлы, пусть будет три штуки, пот 20 тыщ строк, каждая строка содержит имя человека, компанию, телефон, адрес. Нужно объединить три эти файла, и удалить те строки, где компания повторяется.
допустим:
бякин коля, метолабс, 12-34-56-7, Москва
пупкин, метолабс, 12-34-56-7, Москва

Вот мы оставим одного только, остальные должны быть удалены.
Если это проблема, то есть несколько csv файлов с именами, компаниями телефонами, адресами, которые были склеены через zip python.
В общем нужен совет, всем спасибо.
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
26.11.2016, 12:10
Ответы с готовыми решениями:

Удалить дубликаты в файле csv (notepad++)
Здравствуйте! В программе Notepad++ Есть файл csv, он хоть и длинный, но я приведу коротким пример. Нужно удалить дубликаты, но...

Данные из CSV-файлов скопировать в один файл и удалить из него дубликаты строк
Пытался решить задачу самостоятельно, но тщетно. Задача: В папке, где лежит bat файл есть много файлов myFile*.csv (myFile (1).csv,...

Массово переименовать файлы в папке и удалить дубликаты
Доброго времени суток! имеется в папке около 10000 файлов, наименование файлов по типу: 2000-50W-0001_0(EN).pdf ...

1
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
26.11.2016, 19:59
Лучший ответ Сообщение было отмечено izuchaju_python как решение

Решение

Удалить дубликаты, перед этим объединив csv файлы
Способов это сделать, разумеется, не один. Кто-то, например, может предложить заюзать SQL, поскольку положив все данные в базу, легко применить соответствующий запрос для конечной выборки.
Я для таких ситуаций предпочитаю работать с pandas, поскольку прямо из нее можно читать\писать csv.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import os,sys
import pandas as pd
 
os.chdir(sys.path[0])
 
df=pd.DataFrame(columns=['name','org','phone','city']) # создаем пустой фрейм и определяем имена столбцов
 
for filename in ['test.csv','test2.csv','test3.csv']:
    tmp = pd.read_csv(filename,names=['name','org','phone','city']) # считываем каждый файл в dataframe
    df = df.append(tmp,ignore_index=True) # добавляем каждый новый фрейм в основной
 
print(df) # выводим dataframe со всеми строками  из всех csv файлов
# фильтруем дубликаты по колонке city, оставляем только первый результат (по умолчанию), можно наоборот - последний (keep='last'), или вообще - удалить все (keep=False)
df.drop_duplicates('city',keep='first',inplace=True) 
print('-------------------')
print(df) # выводим отфильтрованный фрейм
# записываем в файл
df.to_csv('test_all.csv',index=False,header=False)
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
26.11.2016, 19:59
Помогаю со студенческими работами здесь

Продублировать число, а перед этим удалить из него все цифры, кратные 3
Задача : Дано число, надо продублировать его, а перед этим удалить из него все цифры, кратные 3. В общем, например, у нас число 3564 в...

Текстовые файлы. Создать новый файл, объединив исходные файлы
даны текстовые файлы Name1 и Name2 .создать Name3 файл объединив Name1 и Name2 текстовые файлы

Создать новый файл, объединив исходные текстовые файлы
даны текстовые файлы Name1 и Name2 .создать Name3 файл объединив Name1 и Name2 текстовые файлы Добавлено через 15 минут нуждаюсь в...

Как отправить форму, и не скрыть её перед этим?
Здравствуйте. Есть страница, на которой, если кликнуть по кнопке "Заказ в 1 клик", всплывает форма заказа. Для того, чтобы форма...

Удалить дубликаты
Здравствуйте. Помогите пожалуйста с кодом Если например: в ячейках В2 и С2 одинаковые значения то удаляем оба значения. Этот код...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru