Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/4: Рейтинг темы: голосов - 4, средняя оценка - 4.75
 Аватар для VistaSV30
988 / 332 / 79
Регистрация: 10.04.2012
Сообщений: 1,242
Записей в блоге: 4

Найти слово проспект регулярным выражением

22.09.2021, 19:48. Показов 882. Ответов 13

Студворк — интернет-сервис помощи студентам
Добрый день!

Не получается найти все варианты слова проспект:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import re
def Проспект(Nm):  # Форматирование элемента "Проспект"
    Nm = ' ' + Nm + ' '
    regex  = "(?i)\s?пр[.оспект]*|\s?пр\-т\s?"
 
    subst = " Проспект "
    result = re.sub(regex, subst, Nm, 0)
        
    return(result)
    
t = ['Микрорайон Саввино, пр. Ленина, д. 2, ',
     'Микрорайон Заря, просп. Ленина, д. 2/9, ',
     'Микрорайон Саввино, пр-т Ленина, д. 3, ',
    'Микрорайон Железнодорожный, пл. Ленина, д. 3,',
    'пр-кт Ленина, д. 3,',
    'Микрорайон Заря, ПРОСПЕКТ Ленина, д. 3,']
for i in t:
    print(Проспект(i))

Не по теме:

PS. Читаю книгу Гойвертца, дошел пока до 87 страницы, ответа на свой вопрос пока не нашел

0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
22.09.2021, 19:48
Ответы с готовыми решениями:

Найти строки не начинающиеся с цифры 9 регулярным выражением
Здравствуйте! Помогите пожалуйста с составлением регулярного выражения. У меня есть список строк, у которых отличается только первая цифра,...

Проблемы с регулярным выражением
Имеется часть кода (взял с гита, переделываю под себя), не пойму почему регулярное выражение работает, но не корректно, (на скрине 2) делаю...

Обработка файлов регулярным выражением
подскажите как написать обработку файлов регулярным выражением? программа должна открыть все файлы из каталога, удалить из каждого 1 и...

13
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
22.09.2021, 20:29
Цитата Сообщение от VistaSV30
[.оспект]
Это совсем не то что ты думаешь. Читай про символьные классы и диапазоны.
1
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
22.09.2021, 21:15
Python
1
2
3
4
5
6
7
8
9
10
11
>>> for s in t:
    print(re.search(r"(?i)\bп[-роспек]+т?\.?",s))
 
    
<re.Match object; span=(20, 23), match='пр.'>
<re.Match object; span=(17, 23), match='просп.'>
<re.Match object; span=(20, 24), match='пр-т'>
None
<re.Match object; span=(0, 5), match='пр-кт'>
<re.Match object; span=(17, 25), match='ПРОСПЕКТ'>
>>>
0
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
22.09.2021, 21:25
Garry Galler,
Python
1
2
s = 'песокт'
print(re.search(r"(?i)\bп[-роспек]+т?\.?",s))
Bash
1
<re.Match object; span=(0, 6), match='песокт'>
0
 Аватар для VistaSV30
988 / 332 / 79
Регистрация: 10.04.2012
Сообщений: 1,242
Записей в блоге: 4
22.09.2021, 21:27  [ТС]
Цитата Сообщение от iSmokeJC Посмотреть сообщение
Читай про символьные классы и диапазоны.
Как говориться: "Учи матчасть!"
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
22.09.2021, 21:34
iSmokeJC,
Это да. Но регулярки для данной задачи вообще плохо подходят. Только если подмножество написаний очень небольшое и мы можем гарантировать, что оно не увеличится.

А чтобы исключить варианты которые 100% нам не подходят (при условии что они могут попасться в тексте) - придется каждую буковку из данного слова сделать опциональной в регулярке.
1
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
22.09.2021, 21:37
Garry Galler, согласен.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
22.09.2021, 21:40
ну типа так что ли...
Python
1
2
3
4
5
6
7
8
9
10
11
>>> for s in t:
    print(re.search(r"(?i)\bпр-?о?с?п?е?к?т?\.?",s))
 
    
<re.Match object; span=(20, 23), match='пр.'>
<re.Match object; span=(17, 23), match='просп.'>
<re.Match object; span=(20, 24), match='пр-т'>
None
<re.Match object; span=(0, 5), match='пр-кт'>
<re.Match object; span=(17, 25), match='ПРОСПЕКТ'>
>>>
0
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
22.09.2021, 21:43
Я б что-то типа того наворотил ))))
Python
1
2
3
for s in t:
    result = re.search(r"(?i)\bпр(оспе?)?(-?к?т)?\.?.*?\b\w+\b", s)
    print(result.group() if result else 'None')
Bash
1
2
3
4
5
6
пр. Ленина
просп. Ленина
пр-т Ленина
None
пр-кт Ленина
ПРОСПЕКТ Ленина
0
 Аватар для VistaSV30
988 / 332 / 79
Регистрация: 10.04.2012
Сообщений: 1,242
Записей в блоге: 4
22.09.2021, 21:53  [ТС]
Может быть тогда так:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
def Проспект(Nm):  # Форматирование элемента "Проспект"
    Nm = ' ' + Nm + ' '
    nm = Nm.lower()
    patt  = [' проспект',' просп.',' пр-кт ',' пр-т ',' пр.', '']
    
    for i in patt:
        if i in nm: break
    rl = nm.find(i)
    rr = rl + len(i)
 
    result = Nm[:rl] + ' Проспект ' + Nm[rr:]
        
    return(result)
    
t = ['Микрорайон Саввино, пр. Ленина, д. 2, ',
     'Микрорайон Заря, просп. Ленина, д. 2/9, ',
     'Микрорайон Саввино, пр-т Ленина, д. 3, ',
    'Микрорайон Железнодорожный, пл. Ленина, д. 3,',
    'пр-кт Ленина, д. 3,',
    'Микрорайон Заря, ПРОСПЕКТ Ленина, д. 3,']
for i in t:
    print(Проспект(i))
1
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
22.09.2021, 21:57
Да вродь работает
Python
1
2
3
for s in t:
    result = re.sub(r"(?i)\bпр(оспе?)?(-?к?т)?\.?.*?", 'Проспект', s)
    print(result)
Bash
1
2
3
4
5
6
Микрорайон Саввино, Проспект Ленина, д. 2, 
Микрорайон Заря, Проспект Ленина, д. 2/9, 
Микрорайон Саввино, Проспект Ленина, д. 3, 
Микрорайон Железнодорожный, пл. Ленина, д. 3,
Проспект Ленина, д. 3,
Микрорайон Заря, Проспект Ленина, д. 3,
1
 Аватар для VistaSV30
988 / 332 / 79
Регистрация: 10.04.2012
Сообщений: 1,242
Записей в блоге: 4
22.09.2021, 22:00  [ТС]
Цитата Сообщение от Garry Galler Посмотреть сообщение
регулярки для данной задачи вообще плохо подходят
Что здесь лучше подходит? Посоветуйте
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
22.09.2021, 22:24
Цитата Сообщение от VistaSV30 Посмотреть сообщение
Может быть тогда так
В принципе нормальный вариант.

С регулярками я в итоге пришел только к такому же варианту с перечислением всех возможных написаний:
Если число встречающихся вариаций написаний не очень большое, то на этом можно и остановиться.
Python
1
2
3
4
5
6
7
8
9
10
11
>>> for s in t:
    print(re.sub(r"(?i)\b(пр\.|просп\.|пр-к?т\.?|проспект)", "проспект", s))
 
    
Микрорайон Саввино, проспект Ленина, д. 2, 
Микрорайон Заря, проспект Ленина, д. 2/9, 
Микрорайон Саввино, проспект Ленина, д. 3, 
Микрорайон Железнодорожный, пл. Ленина, д. 3,
проспект Ленина, д. 3,
Микрорайон Заря, проспект Ленина, д. 3,
>>>

Цитата Сообщение от VistaSV30 Посмотреть сообщение
Что здесь лучше подходит?
Нужен специализированный парсер адресов (раньше был такой в наташе (это такой тулкит для NLP)). Но тут и задача должна быть масштабной, чтобы применять тяжелую артиллерию. Самый мощный парсер - на нейронках.
1
 Аватар для VistaSV30
988 / 332 / 79
Регистрация: 10.04.2012
Сообщений: 1,242
Записей в блоге: 4
22.09.2021, 22:37  [ТС]
На реальных данных правильно сработал такой вариант:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
s = ['мкр. Саввино, ул. Ленина, д. 2, Балашиха',
     'мкр. Заря, ул. Ленина, д. 2/9, Балашиха',
     'мкр. Саввино, ул. Ленина, д. 3, Балашиха',
     'мкр. Железнодорожный, пл. Ленина, д. 3, Балашиха',
     ' пр-кт. Ленина, д. 3, Балашиха',
     ' мкр. Заря, ул. Ленина, д. 3, Балашиха',
     ' мкр. Саввино, ул. Ленина, д. 4, Балашиха',
     ' мкр. Саввино, ул. Ленина, д. 4А, Балашиха',
     ' мкр. Саввино, ул. Ленина, д. 5, Балашиха',
     ' мкр. Железнодорожный, пл. Ленина, д. 5, Балашиха',
     ' мкр. Саввино, ул. Ленина, д. 6А, Балашиха',' мкр. Саввино, ул. Ленина, д. 6Б, Балашиха',' пр-кт. Ленина, д. 6, Балашиха',' мкр. Железнодорожный, пл. Ленина, д. 7, Балашиха',' пр-кт. Ленина, д. 7/1, Балашиха',' мкр. Заря, ул. Ленина, д. 7А, Балашиха',' мкр. Авиаторов, ул. Летная, д. 5, к. 5, Балашиха',' мкр. Авиаторов, ул. Летная, д. 6, к. 8, Балашиха']
 
def Проспект(Nm):  # Форматирование элемента "Проспект"
    Nm = ' ' + Nm + ' '
    nm = Nm.lower()
    patt  = [' проспект ',' просп.',' пр-кт ',' пр-кт.',' пр-т ',' пр.']
    result = Nm
    
    for i in patt: 
        if i in nm: 
            rl = nm.find(i)
            rr = rl + len(i)
            result = Nm[:rl] + ' Проспект ' + Nm[rr:]
            break
                
    return(result)
 
for i in s:
    print(Проспект(i))
Цитата Сообщение от Garry Galler Посмотреть сообщение
Но тут и задача должна быть масштабной
У меня задача только в пределах одного города Балашихи.

Но в принципе здесь есть почти все характерные трудности для парсинга адресов.

Пара десятков улиц с одинаковыми названиями, одних только Советских улиц четыре. Дома которые есть в ФИАС, но нет по факту и наоборот, есть неучтенные дома. Есть Линии как в Петербурге, но в ФИАС их нет вообще как категории. Ну другие прелести - дробные номера, корпуса, литеры, строения и т.п. В составе города есть села, поселки и деревни.
В общем весело у нас
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
22.09.2021, 22:37
Помогаю со студенческими работами здесь

Удалить символ регулярным выражением в словаре
Здравствуйте. Как можно с помощью регулярного выражения удалить точку в конце слова в словаре? data = { 'key_1': 'test.', ...

Получить названия городов регулярным выражением
Добрый день! Очень нерегулярно пользуюсь регулярными выражениями. Подскажите как получить названия населенных пунктов, идущих в...

Регулярным выражением удалить комментарии из программы на C#
Необходимо удалить комментарии на C# Однострочные комментарии удаляются, а вот с многострочными беда. На фото демонстрация исходного...

Не вырезается слово регулярным выражением
Здравствуйте. Есть строка такого типа: ...Цвет: Белый,... ...Цвет: Рифт белый,... вобщем вариаций много... единственные...

Найти последнее вхождение регулярным выражением
Суть в том, что до недавнего времени массивы статусов отслеживания выдавало в обратной последовательности и мне нужен был первый, который...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
14
Ответ Создать тему
Новые блоги и статьи
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных через динамический список в справочнике
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Функция заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
10 пpимет, которые всегда сбываются
Maks 31.03.2026
1. Чтобы, наконец, пришла маршрутка, надо закурить. Если сигарета последняя, маршрутка придет еще до второй затяжки даже вопреки расписанию. 2. Нaдоели зима и снег? Не надо переезжать. Достаточно. . .
Перемещение выделенных строк ТЧ из одного документа в другой
Maks 31.03.2026
Реализация из решения ниже выполнена на примере нетипового документа "ВыдачаОборудованияНаСпецтехнику" с единственной табличной частью "ОборудованиеИКомплектующие" разработанного в конфигурации КА2. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru