С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.61/18: Рейтинг темы: голосов - 18, средняя оценка - 4.61
11 / 15 / 8
Регистрация: 12.10.2011
Сообщений: 811

Найти в Dataframe одинаковые значения с учетом повторений в течение суток

02.12.2021, 22:39. Показов 3918. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день!
Стоит такая задача, есть df где есть поле "адрес" и поле "дата", необходимо найти сколько раз повторяется адрес в строчках при условии, что от текущей проверяемой строчки дата должна быть не более установленного количества дней.
Как найти все повторения я придумал, а вот как еще и отфильтровать по дате ?
в этом коде создается новый столбец и в случае повтора адреса (второе вхождение) пишется 1, те если адрес будет повторен 3 раза то в df будет 4 строчки с ним а 1 будет написан в 3-х последних строчках.
Python
1
2
pd['povtor'] = np.where(~pd['адрес канала'].isnull(), # проверка есть ли запись вообще
    np.where(pd.duplicated(subset='адрес канала', keep='first'), 1, 0), 0)
Добавлено через 17 минут
Время регистрацииадрес канала
02.12.2021 12:21РФ обл. рай. рег.Москва г.Москва ул.улица Рабочая д.13
02.12.2021 12:43РФ обл. рай. рег.Москва г.Москва ул.улица Рабочая д.13
02.12.2021 11:45РФ обл. рай. рег.Москва г.Москва ул.улица Новая Басманная д.д.15
02.12.2021 11:45РФ обл. рай. рег.Москва г.Москва ул.улица Новая Басманная д.д.15
05.12.2021 11:45РФ обл. рай. рег.Москва г.Москва ул.улица Новая Басманная д.д.15
02.12.2021 11:30РФ обл. рай. рег.Москва г.Москва ул.улица Клочкова д.д.4
02.12.2021 11:30РФ обл. рай. рег.Москва г.Москва ул.улица Клочкова д.д.4
02.12.2021 11:27РФ обл. рай. рег.Москва г.Москва ул.улица Гольяновская д.д.7А
02.12.2021 13:30РФ обл. рай. рег.Москва г.Москва ул.улица Гольяновская д.д.7А
02.12.2021 20:39РФ обл. рай. рег.Москва г.Москва ул.улица Большая Академическая д.д.8
02.12.2021 20:42РФ обл. рай. рег.Москва г.Москва ул.улица Большая Академическая д.д.8
02.12.2021 12:30РФ обл. рай. рег.Москва г.Москва ул.проспект Комсомольский д.д.27 5
02.12.2021 12:35РФ обл. рай. рег.Москва г.Москва ул.проспект Комсомольский д.д.27 5

Должно получиться так, при условии проверять в период 1 сутки. эта строчка должна быть с 0 (05.12.2021 11:45 РФ обл. рай. рег.Москва г.Москва ул.улица Новая Басманная д.д.15)
Время регистрацииадрес канала povtor
02.12.2021 12:21РФ обл. рай. рег.Москва г.Москва ул.улица Рабочая д.д.130
02.12.2021 12:43РФ обл. рай. рег.Москва г.Москва ул.улица Рабочая д.д.131
02.12.2021 11:45РФ обл. рай. рег.Москва г.Москва ул.улица Новая Басманная д.д.150
02.12.2021 11:45РФ обл. рай. рег.Москва г.Москва ул.улица Новая Басманная д.д.151
05.12.2021 11:45РФ обл. рай. рег.Москва г.Москва ул.улица Новая Басманная д.д.150
02.12.2021 11:30РФ обл. рай. рег.Москва г.Москва ул.улица Клочкова д.д.40
02.12.2021 11:30РФ обл. рай. рег.Москва г.Москва ул.улица Клочкова д.д.41
02.12.2021 11:27РФ обл. рай. рег.Москва г.Москва ул.улица Гольяновская д.д.7А0
02.12.2021 13:30РФ обл. рай. рег.Москва г.Москва ул.улица Гольяновская д.д.7А 1
02.12.2021 20:39РФ обл. рай. рег.Москва г.Москва ул.улица Большая Академическая д.д.80
02.12.2021 20:42РФ обл. рай. рег.Москва г.Москва ул.улица Большая Академическая д.д.8 1
02.12.2021 12:30РФ обл. рай. рег.Москва г.Москва ул.проспект Комсомольский д.д.27 50
02.12.2021 12:35РФ обл. рай. рег.Москва г.Москва ул.проспект Комсомольский д.д.27 5 1
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
02.12.2021, 22:39
Ответы с готовыми решениями:

Известна информация о 25 событиях, произошедших в течение суток: часы (значения от 0 до 23) и минуты (от 0 до 59). Составить программу, определяющую,
Известна информация о 25 событиях, произошедших в течение суток: часы (значения от 0 до 23) и минуты (от 0 до 59). Составить программу,...

Найти одинаковые 5-символьные слова и подсчитать число их повторений. Найти первое цифровое слово и уменьшить
Задача заключается в следующем: Найти одинаковые 5-символьные слова и подсчитать число их повторений. Найти первое цифровое слово и...

Найти одинаковые 5-символьные слова и подсчитать число их повторений
Помогите плиз задача:Задан текст, состоящий из слов, записанных через пробелы или запятые. Длина текста не больше 255 символов. В тексте...

6
 Аватар для VistaSV30
986 / 330 / 79
Регистрация: 10.04.2012
Сообщений: 1,239
Записей в блоге: 4
02.12.2021, 23:00
eagl69, можно попробовать сделать группировку в сочетании с сортировкой

Добавлено через 5 минут
Группировать по адресам и датам
0
11 / 15 / 8
Регистрация: 12.10.2011
Сообщений: 811
02.12.2021, 23:16  [ТС]
Группировка сократит количество строк, мне нужно исходный размер оставить как есть, дописав новую колонку povtor.

Добавлено через 11 минут
Если с начала выделить в столбец только дату то можно включить в повтор и дату, но это будет работать при условии, поиска только в течении суток, если учесть время или 10 суток то так не получится.
Python
1
2
3
pd1['дата'] = pd1['Время регистрации'].dt.date
pd1['povtor'] = np.where(~pd1['адрес канала'].isnull(),
    np.where(pd1.duplicated(subset=('адрес канала', 'дата'), keep='first'), 1, 0), 0)
0
 Аватар для VistaSV30
986 / 330 / 79
Регистрация: 10.04.2012
Сообщений: 1,239
Записей в блоге: 4
03.12.2021, 15:33
По-моему, удобнее результат сделать в виде сводной таблицы
Например:
0
 Аватар для VistaSV30
986 / 330 / 79
Регистрация: 10.04.2012
Сообщений: 1,239
Записей в блоге: 4
03.12.2021, 15:34
Адреса и даты придется в сокращенном формате выводить
0
11 / 15 / 8
Регистрация: 12.10.2011
Сообщений: 811
03.12.2021, 15:40  [ТС]
Все дело в том, что данная таблица потом уходит в BI и для подсчета показателей строки сокращать нельзя....

Добавлено через 1 минуту
Это обработка данных в таблице sql, она от туда берется, выполняются вычисления и возвращается назад,
0
Эксперт Python
8841 / 4493 / 1864
Регистрация: 27.03.2020
Сообщений: 7,315
03.12.2021, 22:19
Лучший ответ Сообщение было отмечено eagl69 как решение

Решение

eagl69,
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
import pandas as pd
import numpy as np
import datetime as DT
from itertools import count, islice
 
###########################
# создание фрейма
n = 50 # 50 записей в базе
date_gen = (f'{DT.datetime.today() - DT.timedelta(seconds=39050*i):%Y.%m.%d %H:%M:%S}' for i in count())
dates = list(islice(date_gen, n))[::-1]
tmp = pd.to_datetime(dates)
d_day = (tmp.max() - tmp.min()).days + 1
adr = list('ABCDE') # адреса
dct = {'Время регистрации': tmp,
 'адрес канала': np.random.choice(adr, n)}
df = pd.DataFrame(dct)
###################################
 
diap = 3 # диапазоны по 3 дня, можно любое количество
n_diap = np.repeat(np.arange(1, np.ceil(d_day/diap)+1), diap).astype(int)[:d_day]
n_date = pd.date_range(start=tmp.min().date(), periods=d_day)
df1 = pd.DataFrame({'data': n_date, 'cnt': n_diap})
 
df['data'] = df['Время регистрации'].map(lambda x: x.date()).astype('datetime64')
 
df = pd.merge(df, df1, on="data")
df.sort_values(by=['cnt', 'адрес канала', 'Время регистрации'] , inplace=True)
 
df['povtor'] = np.where((df.cnt.values == df.cnt.shift(1).values)
      & (df['адрес канала'].values == df['адрес канала'].shift(1)), 1, 0)
df.drop(['cnt', 'data'], axis=1, inplace=True)
df.sort_index(inplace=True)
print(df)
Создается дополнительный фрейм (df1), в котором устанавливается нумерация диапазонов дат.
Потом слияние с основным фреймом. Сортировка по "нумерации", затем по адресам и в конце по дате регистрации.
При совпадении по полям "нумерация" и "адрес" с предыдущей строчкой - 1, иначе - 0.
Сортируем обратно по индексу.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
03.12.2021, 22:19
Помогаю со студенческими работами здесь

Найти одинаковые 5-тисимвольные слова и подсчитать число их повторений
Помогите пож-ста, к завтрашнему очень надор=( Экзамен, а я эту задачку на C++ не могу решить... Вот задание: Вариант №18 Задан текст,...

Найти в тексте одинаковые слова и подсчитать число их повторений
int z,c,l; z=0; c=1; l=2; // int numWord - это всего. общее количество векторов for (z; z<numWord; z++) { for (c;...

Найти одинаковые 5-символьные слова и подсчитать число их повторений. Найти первое цифровое слово и уменьшить его значение в 3 раза.
Задан текст, состоящий из слов, записанных через пробелы или запятые. Длина текста не больше 255 символов. В тексте могут быть использованы...

Цикл в котором моделируется течение суток
У меня цикл в котором моделируется течение суток (1440 минут). Допустим каждые Т=7 минут приходит N=10 человек. Что написать в условии...

В одномерном массиве найти одинаковые элементы и сосчитать сумму повторений
У меня по заданию нужно в одномерном массиве найти одинаковые элементы и сосчитать сумму повторений (это уже сделал), но меня не...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её. Последовательность действий:. . .
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение. И на уровне агентов добавится между грибами или бактериями взаимодействий. До того я пробовал подход через многомерные массивы,. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru