Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.59/29: Рейтинг темы: голосов - 29, средняя оценка - 4.59
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431

Удалить дубликаты, перед этим объединив csv файлы

26.11.2016, 12:10. Показов 5624. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Есть csv файлы, пусть будет три штуки, пот 20 тыщ строк, каждая строка содержит имя человека, компанию, телефон, адрес. Нужно объединить три эти файла, и удалить те строки, где компания повторяется.
допустим:
бякин коля, метолабс, 12-34-56-7, Москва
пупкин, метолабс, 12-34-56-7, Москва

Вот мы оставим одного только, остальные должны быть удалены.
Если это проблема, то есть несколько csv файлов с именами, компаниями телефонами, адресами, которые были склеены через zip python.
В общем нужен совет, всем спасибо.
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
26.11.2016, 12:10
Ответы с готовыми решениями:

Удалить дубликаты в файле csv (notepad++)
Здравствуйте! В программе Notepad++ Есть файл csv, он хоть и длинный, но я приведу коротким пример. Нужно удалить дубликаты, но...

Данные из CSV-файлов скопировать в один файл и удалить из него дубликаты строк
Пытался решить задачу самостоятельно, но тщетно. Задача: В папке, где лежит bat файл есть много файлов myFile*.csv (myFile (1).csv,...

Массово переименовать файлы в папке и удалить дубликаты
Доброго времени суток! имеется в папке около 10000 файлов, наименование файлов по типу: 2000-50W-0001_0(EN).pdf ...

1
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
26.11.2016, 19:59
Лучший ответ Сообщение было отмечено izuchaju_python как решение

Решение

Удалить дубликаты, перед этим объединив csv файлы
Способов это сделать, разумеется, не один. Кто-то, например, может предложить заюзать SQL, поскольку положив все данные в базу, легко применить соответствующий запрос для конечной выборки.
Я для таких ситуаций предпочитаю работать с pandas, поскольку прямо из нее можно читать\писать csv.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import os,sys
import pandas as pd
 
os.chdir(sys.path[0])
 
df=pd.DataFrame(columns=['name','org','phone','city']) # создаем пустой фрейм и определяем имена столбцов
 
for filename in ['test.csv','test2.csv','test3.csv']:
    tmp = pd.read_csv(filename,names=['name','org','phone','city']) # считываем каждый файл в dataframe
    df = df.append(tmp,ignore_index=True) # добавляем каждый новый фрейм в основной
 
print(df) # выводим dataframe со всеми строками  из всех csv файлов
# фильтруем дубликаты по колонке city, оставляем только первый результат (по умолчанию), можно наоборот - последний (keep='last'), или вообще - удалить все (keep=False)
df.drop_duplicates('city',keep='first',inplace=True) 
print('-------------------')
print(df) # выводим отфильтрованный фрейм
# записываем в файл
df.to_csv('test_all.csv',index=False,header=False)
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
26.11.2016, 19:59
Помогаю со студенческими работами здесь

Продублировать число, а перед этим удалить из него все цифры, кратные 3
Задача : Дано число, надо продублировать его, а перед этим удалить из него все цифры, кратные 3. В общем, например, у нас число 3564 в...

Текстовые файлы. Создать новый файл, объединив исходные файлы
даны текстовые файлы Name1 и Name2 .создать Name3 файл объединив Name1 и Name2 текстовые файлы

Создать новый файл, объединив исходные текстовые файлы
даны текстовые файлы Name1 и Name2 .создать Name3 файл объединив Name1 и Name2 текстовые файлы Добавлено через 15 минут нуждаюсь в...

Как отправить форму, и не скрыть её перед этим?
Здравствуйте. Есть страница, на которой, если кликнуть по кнопке "Заказ в 1 клик", всплывает форма заказа. Для того, чтобы форма...

Удалить дубликаты
Здравствуйте. Помогите пожалуйста с кодом Если например: в ячейках В2 и С2 одинаковые значения то удаляем оба значения. Этот код...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru