Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.61/18: Рейтинг темы: голосов - 18, средняя оценка - 4.61
11 / 15 / 8
Регистрация: 12.10.2011
Сообщений: 811

Найти в Dataframe одинаковые значения с учетом повторений в течение суток

02.12.2021, 22:39. Показов 3904. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день!
Стоит такая задача, есть df где есть поле "адрес" и поле "дата", необходимо найти сколько раз повторяется адрес в строчках при условии, что от текущей проверяемой строчки дата должна быть не более установленного количества дней.
Как найти все повторения я придумал, а вот как еще и отфильтровать по дате ?
в этом коде создается новый столбец и в случае повтора адреса (второе вхождение) пишется 1, те если адрес будет повторен 3 раза то в df будет 4 строчки с ним а 1 будет написан в 3-х последних строчках.
Python
1
2
pd['povtor'] = np.where(~pd['адрес канала'].isnull(), # проверка есть ли запись вообще
    np.where(pd.duplicated(subset='адрес канала', keep='first'), 1, 0), 0)
Добавлено через 17 минут
Время регистрацииадрес канала
02.12.2021 12:21РФ обл. рай. рег.Москва г.Москва ул.улица Рабочая д.13
02.12.2021 12:43РФ обл. рай. рег.Москва г.Москва ул.улица Рабочая д.13
02.12.2021 11:45РФ обл. рай. рег.Москва г.Москва ул.улица Новая Басманная д.д.15
02.12.2021 11:45РФ обл. рай. рег.Москва г.Москва ул.улица Новая Басманная д.д.15
05.12.2021 11:45РФ обл. рай. рег.Москва г.Москва ул.улица Новая Басманная д.д.15
02.12.2021 11:30РФ обл. рай. рег.Москва г.Москва ул.улица Клочкова д.д.4
02.12.2021 11:30РФ обл. рай. рег.Москва г.Москва ул.улица Клочкова д.д.4
02.12.2021 11:27РФ обл. рай. рег.Москва г.Москва ул.улица Гольяновская д.д.7А
02.12.2021 13:30РФ обл. рай. рег.Москва г.Москва ул.улица Гольяновская д.д.7А
02.12.2021 20:39РФ обл. рай. рег.Москва г.Москва ул.улица Большая Академическая д.д.8
02.12.2021 20:42РФ обл. рай. рег.Москва г.Москва ул.улица Большая Академическая д.д.8
02.12.2021 12:30РФ обл. рай. рег.Москва г.Москва ул.проспект Комсомольский д.д.27 5
02.12.2021 12:35РФ обл. рай. рег.Москва г.Москва ул.проспект Комсомольский д.д.27 5

Должно получиться так, при условии проверять в период 1 сутки. эта строчка должна быть с 0 (05.12.2021 11:45 РФ обл. рай. рег.Москва г.Москва ул.улица Новая Басманная д.д.15)
Время регистрацииадрес канала povtor
02.12.2021 12:21РФ обл. рай. рег.Москва г.Москва ул.улица Рабочая д.д.130
02.12.2021 12:43РФ обл. рай. рег.Москва г.Москва ул.улица Рабочая д.д.131
02.12.2021 11:45РФ обл. рай. рег.Москва г.Москва ул.улица Новая Басманная д.д.150
02.12.2021 11:45РФ обл. рай. рег.Москва г.Москва ул.улица Новая Басманная д.д.151
05.12.2021 11:45РФ обл. рай. рег.Москва г.Москва ул.улица Новая Басманная д.д.150
02.12.2021 11:30РФ обл. рай. рег.Москва г.Москва ул.улица Клочкова д.д.40
02.12.2021 11:30РФ обл. рай. рег.Москва г.Москва ул.улица Клочкова д.д.41
02.12.2021 11:27РФ обл. рай. рег.Москва г.Москва ул.улица Гольяновская д.д.7А0
02.12.2021 13:30РФ обл. рай. рег.Москва г.Москва ул.улица Гольяновская д.д.7А 1
02.12.2021 20:39РФ обл. рай. рег.Москва г.Москва ул.улица Большая Академическая д.д.80
02.12.2021 20:42РФ обл. рай. рег.Москва г.Москва ул.улица Большая Академическая д.д.8 1
02.12.2021 12:30РФ обл. рай. рег.Москва г.Москва ул.проспект Комсомольский д.д.27 50
02.12.2021 12:35РФ обл. рай. рег.Москва г.Москва ул.проспект Комсомольский д.д.27 5 1
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
02.12.2021, 22:39
Ответы с готовыми решениями:

Известна информация о 25 событиях, произошедших в течение суток: часы (значения от 0 до 23) и минуты (от 0 до 59). Составить программу, определяющую,
Известна информация о 25 событиях, произошедших в течение суток: часы (значения от 0 до 23) и минуты (от 0 до 59). Составить программу,...

Найти одинаковые 5-символьные слова и подсчитать число их повторений. Найти первое цифровое слово и уменьшить
Задача заключается в следующем: Найти одинаковые 5-символьные слова и подсчитать число их повторений. Найти первое цифровое слово и...

Найти одинаковые 5-символьные слова и подсчитать число их повторений
Помогите плиз задача:Задан текст, состоящий из слов, записанных через пробелы или запятые. Длина текста не больше 255 символов. В тексте...

6
 Аватар для VistaSV30
986 / 330 / 79
Регистрация: 10.04.2012
Сообщений: 1,239
Записей в блоге: 4
02.12.2021, 23:00
eagl69, можно попробовать сделать группировку в сочетании с сортировкой

Добавлено через 5 минут
Группировать по адресам и датам
0
11 / 15 / 8
Регистрация: 12.10.2011
Сообщений: 811
02.12.2021, 23:16  [ТС]
Группировка сократит количество строк, мне нужно исходный размер оставить как есть, дописав новую колонку povtor.

Добавлено через 11 минут
Если с начала выделить в столбец только дату то можно включить в повтор и дату, но это будет работать при условии, поиска только в течении суток, если учесть время или 10 суток то так не получится.
Python
1
2
3
pd1['дата'] = pd1['Время регистрации'].dt.date
pd1['povtor'] = np.where(~pd1['адрес канала'].isnull(),
    np.where(pd1.duplicated(subset=('адрес канала', 'дата'), keep='first'), 1, 0), 0)
0
 Аватар для VistaSV30
986 / 330 / 79
Регистрация: 10.04.2012
Сообщений: 1,239
Записей в блоге: 4
03.12.2021, 15:33
По-моему, удобнее результат сделать в виде сводной таблицы
Например:
0
 Аватар для VistaSV30
986 / 330 / 79
Регистрация: 10.04.2012
Сообщений: 1,239
Записей в блоге: 4
03.12.2021, 15:34
Адреса и даты придется в сокращенном формате выводить
0
11 / 15 / 8
Регистрация: 12.10.2011
Сообщений: 811
03.12.2021, 15:40  [ТС]
Все дело в том, что данная таблица потом уходит в BI и для подсчета показателей строки сокращать нельзя....

Добавлено через 1 минуту
Это обработка данных в таблице sql, она от туда берется, выполняются вычисления и возвращается назад,
0
Эксперт Python
8840 / 4492 / 1864
Регистрация: 27.03.2020
Сообщений: 7,312
03.12.2021, 22:19
Лучший ответ Сообщение было отмечено eagl69 как решение

Решение

eagl69,
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
import pandas as pd
import numpy as np
import datetime as DT
from itertools import count, islice
 
###########################
# создание фрейма
n = 50 # 50 записей в базе
date_gen = (f'{DT.datetime.today() - DT.timedelta(seconds=39050*i):%Y.%m.%d %H:%M:%S}' for i in count())
dates = list(islice(date_gen, n))[::-1]
tmp = pd.to_datetime(dates)
d_day = (tmp.max() - tmp.min()).days + 1
adr = list('ABCDE') # адреса
dct = {'Время регистрации': tmp,
 'адрес канала': np.random.choice(adr, n)}
df = pd.DataFrame(dct)
###################################
 
diap = 3 # диапазоны по 3 дня, можно любое количество
n_diap = np.repeat(np.arange(1, np.ceil(d_day/diap)+1), diap).astype(int)[:d_day]
n_date = pd.date_range(start=tmp.min().date(), periods=d_day)
df1 = pd.DataFrame({'data': n_date, 'cnt': n_diap})
 
df['data'] = df['Время регистрации'].map(lambda x: x.date()).astype('datetime64')
 
df = pd.merge(df, df1, on="data")
df.sort_values(by=['cnt', 'адрес канала', 'Время регистрации'] , inplace=True)
 
df['povtor'] = np.where((df.cnt.values == df.cnt.shift(1).values)
      & (df['адрес канала'].values == df['адрес канала'].shift(1)), 1, 0)
df.drop(['cnt', 'data'], axis=1, inplace=True)
df.sort_index(inplace=True)
print(df)
Создается дополнительный фрейм (df1), в котором устанавливается нумерация диапазонов дат.
Потом слияние с основным фреймом. Сортировка по "нумерации", затем по адресам и в конце по дате регистрации.
При совпадении по полям "нумерация" и "адрес" с предыдущей строчкой - 1, иначе - 0.
Сортируем обратно по индексу.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
03.12.2021, 22:19
Помогаю со студенческими работами здесь

Найти одинаковые 5-тисимвольные слова и подсчитать число их повторений
Помогите пож-ста, к завтрашнему очень надор=( Экзамен, а я эту задачку на C++ не могу решить... Вот задание: Вариант №18 Задан текст,...

Найти в тексте одинаковые слова и подсчитать число их повторений
int z,c,l; z=0; c=1; l=2; // int numWord - это всего. общее количество векторов for (z; z<numWord; z++) { for (c;...

Найти одинаковые 5-символьные слова и подсчитать число их повторений. Найти первое цифровое слово и уменьшить его значение в 3 раза.
Задан текст, состоящий из слов, записанных через пробелы или запятые. Длина текста не больше 255 символов. В тексте могут быть использованы...

Цикл в котором моделируется течение суток
У меня цикл в котором моделируется течение суток (1440 минут). Допустим каждые Т=7 минут приходит N=10 человек. Что написать в условии...

В одномерном массиве найти одинаковые элементы и сосчитать сумму повторений
У меня по заданию нужно в одномерном массиве найти одинаковые элементы и сосчитать сумму повторений (это уже сделал), но меня не...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru