Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.50/4: Рейтинг темы: голосов - 4, средняя оценка - 4.50
0 / 0 / 0
Регистрация: 05.12.2016
Сообщений: 23

Очистка повторяющегося в произвольном количестве текста регуляркой

30.01.2020, 08:22. Показов 766. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет! Подскажите пожалуйста, как сделать регуляркой следующую штуку (если это вообще возможно).
Есть такой текст:
Кликните здесь для просмотра всего текста

Еще какой-то текст текст текст
И еще
<заголовок> текст
текст
<заголовок> Сведения об учредителях (участниках) юридического лица
<заголовок> В соответствии с законодательством Российской Федерации о государственной регистрации
<заголовок> юридических лиц в Едином государственном реестре юридических лиц содержатся сведения
<заголовок> об учредителях акционерного общества, а не о его акционерах. Сведения об акционерах
<заголовок> общества отражаются в реестре акционеров, держателем которого является само
<заголовок> общество или регистратор
возможно еще текст


Можно ли как-то обрезать тег заголовка в строках, которые следуют за первой строкой заголовка? Т.е. если тег, а потом текст, то все нормально, а вот если есть несколько строк подряд с одинаковым тегом, то оставить тег только в первой строке, а в остальные строки записать соответствующий текст.
Т.е. приведенный выше пример должен стать таким :
Кликните здесь для просмотра всего текста

Еще какой-то текст текст текст
И еще
<заголовок> текст
текст
<заголовок> Сведения об учредителях (участниках) юридического лица
В соответствии с законодательством Российской Федерации о государственной регистрации
юридических лиц в Едином государственном реестре юридических лиц содержатся сведения
об учредителях акционерного общества, а не о его акционерах. Сведения об акционерах
общества отражаются в реестре акционеров, держателем которого является само
общество или регистратор
возможно еще текст


Я сам пытался и мои идеи закончились вот на такой регулярочке r'(<заголовок>)(.+?\n)(\1)'
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
30.01.2020, 08:22
Ответы с готовыми решениями:

Подсчет затрат в месяц при произвольном количестве вводимых данных
Здравствуйте. Не могу осилить задачу, может подскажите: формирую таблицу ежемесячных затрат на воду (газ, электричество...). Входные...

Сколько в городе телефонных номеров, в которых присутствует цифра «4» (в произвольном количестве)
Здравствуйте товарищи! Готовлюсь к сессии и решаю задачки по комбинаторике! Выглядит чудо как то так Телефонные номера Цветочного...

Удаление повторяющегося слова из текста
Ввести текст из нескольких слов в тексте. Удалить указанное повторяющееся несоколько раз слово.

4
Модератор
Эксперт Python
 Аватар для Fudthhh
2695 / 1601 / 513
Регистрация: 21.02.2017
Сообщений: 4,210
Записей в блоге: 1
30.01.2020, 08:44
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# -*- coding: utf-8 -*-
 
def repalce_repeater(word: str, text: str) -> str:
    lines = text.split("\n")
 
    for row, line in enumerate(lines):
        if word in line:
            while row <= len(lines):
                row += 1
                if word not in lines[row]:
                    break
                lines[row] = lines[row].replace(word, "").lstrip()
 
    return "\n".join(lines)
1
0 / 0 / 0
Регистрация: 05.12.2016
Сообщений: 23
30.01.2020, 09:19  [ТС]
Спасибо, решение хорошое конечно, но можно ли сделать то же самое на регулярке? Есть ощущение что такой код будет работать гораздо дольше чем регулярка, особенно на текстах, в которых по 3-4 тыс. страниц.
0
Просто Лис
Эксперт Python
 Аватар для Рыжий Лис
5973 / 3735 / 1099
Регистрация: 17.05.2012
Сообщений: 10,791
Записей в блоге: 9
30.01.2020, 10:23
Ничё не понял, но держи код:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
t = '''\
Еще какой-то текст текст текст
И еще
<заголовок> текст
текст
<заголовок> Сведения об учредителях (участниках) юридического лица
<заголовок> В соответствии с законодательством Российской Федерации о государственной регистрации
<заголовок> юридических лиц в Едином государственном реестре юридических лиц содержатся сведения
<заголовок> об учредителях акционерного общества, а не о его акционерах. Сведения об акционерах
<заголовок> общества отражаются в реестре акционеров, держателем которого является само
<заголовок> общество или регистратор
возможно еще текст'''
 
s1, s2 = t.split('<заголовок> ', 1)
print(s1, '<заголовок>', s2.replace('<заголовок> ', ''))
0
Модератор
Эксперт Python
 Аватар для Fudthhh
2695 / 1601 / 513
Регистрация: 21.02.2017
Сообщений: 4,210
Записей в блоге: 1
31.01.2020, 09:37
Lait3,

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# -*- coding: utf-8 -*-
 
import re
 
 
text = '''Еще какой-то текст текст текст
И еще
<заголовок> текст
текст
<заголовок> Сведения об учредителях (участниках) юридического лица
<заголовок> В соответствии с законодательством Российской Федерации о государственной регистрации
<заголовок> юридических лиц в Едином государственном реестре юридических лиц содержатся сведения
<заголовок> об учредителях акционерного общества, а не о его акционерах. Сведения об акционерах
<заголовок> общества отражаются в реестре акционеров, держателем которого является само
<заголовок> общество или регистратор
возможно еще текст'''
 
 
pattern = r"\<заголовок\>.*?\n(<заголовок>\s*)"
 
re.sub(pattern, "", text)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
31.01.2020, 09:37
Помогаю со студенческими работами здесь

Замена текста с регуляркой
В статьях встречаются макросы вида: {} Где 37539 - id картинки из базы, нужно вытащить это id, и заменить весь макрос {} на строку - пути...

Парсинг текста регуляркой
Доброго времени суток. Есть тект &quot;paymentStatus&quot;:&quot;not-paid&quot;,&quot;leftDays&quot;:46,&quot;billDate&quot;:&quot;23.05.2017&quot;,&quot;billFor&quot;:&quot;Штраф по...

Вытащить регуляркой телефон из текста
Пытаюсь с помощью регулярного выражения вытащить телефонный номер из текстового поля и залить в отдельный столбец. Дело происходит в...

Вырезать регуляркой кусок текста с разными условиями
Здравствуйте. Есть определенный кусок текста. Необходимо начиная с определенных слов (особенности репака, особенности repack и т.д.)...

Сохранение форматирования текста при обработке регуляркой
Возникла проблема, мне нужно сохранив форматирование текста удалить html теги. Я сохранил все форматирование...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru