Форум программистов, компьютерный форум, киберфорум
Python: Решение задач
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
2 / 2 / 0
Регистрация: 20.04.2018
Сообщений: 48

Распарсить html строку по тегам через регулярки

25.10.2022, 16:25. Показов 646. Ответов 3

Студворк — интернет-сервис помощи студентам
Имеется html строка допустим
Info about Leela <span xml:lang="en" lang="en"><b><span>Turanga Leela</span></b></span><span>Super</span><span>girl</span>

Необходимо получить все теги этой строки (к примеру span) с самим телом, как видно у тегов есть вложенность, есть ли возможность получить каждый тег отдельно через регулярные выражения?
Вот результат:
<span xml:lang="en" lang="en"><b><span>Turanga Leela</span></b></span>
<span>Turanga Leela</span>
<span>Super</span>
<span>girl</span>
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
25.10.2022, 16:25
Ответы с готовыми решениями:

помогите распарсить HTML строку
Здравствуйте. Подскажите какое подобрать регулярное выражение чтобы распарсить вот такие строчки &lt;tr class=&quot;G1&quot;...

Распарсить строку HTML-кода
Всем привет. Посоветуйте как выйти из данной ситуации. Нужно вырезать ВСЁ из этого текста, &lt;div...

Regex: распарсить HTML-строку
Входная строка: Моя регулярка: Результат: Как видите, мне нужно получить текст стоящий перед &lt;x&gt;, но только в той...

3
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
25.10.2022, 18:22
С одним уровнем вложенности еще туда-сюда, а если больше, то алес

Добавлено через 1 минуту
Даже с одним уровнем монстр получится. Так что идея так себе.
Ну или циклами/рекурсией бегать с регулярками.

Добавлено через 7 минут
Хотя...
Python
1
2
3
4
import regex as re
 
s = 'Info about Leela <span xml:lang="en" lang="en"><b><span>Turanga Leela</span></b></span><span>Super</span><span>girl</span>'
print(*[i[0] for i in re.finditer(r'<(\w+).*?</\1>', s, overlapped=True)], sep='\n')
Code
1
2
3
4
5
<span xml:lang="en" lang="en"><b><span>Turanga Leela</span>
<b><span>Turanga Leela</span></b>
<span>Turanga Leela</span>
<span>Super</span>
<span>girl</span>
Dezoway, попрёт?

Добавлено через 43 секунды
Первая строчка некошерная
1
25.10.2022, 18:58

Не по теме:

del

Не пойдет, думал, может обычным способом можно.

0
2 / 2 / 0
Регистрация: 20.04.2018
Сообщений: 48
26.10.2022, 08:26  [ТС]
Пойдёт, спасибо!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
26.10.2022, 08:26
Помогаю со студенческими работами здесь

Как распарсить строку с HTML-страницы
Здравствуйте форумчанены =) Подскажите, нужно из строки html файла, примерного вида &lt;area href=&quot;http://site.com/p2&quot;...

Каким способом лучше разить строку: через регулярки или сплитом?
Здравствуйте. Подскажите пожалуйста в следующем вопросе. Имеется строка такого вида: 199.72.81.55 - - &quot;GET /history/apollo/...

Распарсить html-строку и узнать, какой текст и как был отформатирован
Вообщем имеется строка такого типа &quot;new text&lt;b&gt;text b&lt;/b&gt;&lt;i&gt;text i&lt;b&gt;text b i &lt;/b&gt;&lt;/i&gt;&quot; Нужно достать обычный текст, жирный текст и...

Распарсить страницу через Html Agility Pack
Имеется страница с разметкой такого Типа : &lt;span id='1_46' class='tree1_1' onclick=&quot;collapse('1_46','2_46')&quot;;&gt;ФАКТОРЫ...

Парсинг по определенным html-тегам
Приветствую. Такая задача: есть html страница, в коде которой встречаются вот такие конструкции &lt;div...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
1С: Контроль уникальности заводского номера
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере документа выдачи шин для спецтехники с табличной частью. Данные берутся из регистра сведений, по которому настроено. . .
Хочу заставить корпорации вкладываться в здоровье сотрудников: делаю мат модель здравосохранения
anaschu 22.03.2026
e7EYtONaj8Y Z4Tv2zpXVVo https:/ / github. com/ shumilovas/ med2. git
1С: Программный отбор элементов справочника по группе
Maks 22.03.2026
Установка программного отбора элементов справочника "Номенклатура" из модуля формы документа. В качестве фильтра для отбора справочника служит группа номенклатуры. Отбор по наименованию группы. . .
Как я обхитрил таблицу Word
Alexander-7 21.03.2026
Когда мигает курсор у внешнего края таблицы, и нам надо перейти на новую строку, а при нажатии Enter создается новый ряд таблицы с ячейками, то мы вместо нервных нажатий Энтеров мы пишем любые буквы. . .
Krabik - рыболовный бот для WoW 3.3.5a
AmbA 21.03.2026
без регистрации и смс. Это не торговля, приложение не содержит рекламы. Выполняет свою непосредственную задачу - автоматизацию рыбалки в WoW - и ничего более. Однако если админы будут против -. . .
1С: Программный отбор элементов справочника по значению перечисления
Maks 21.03.2026
Установка программного отбора элементов справочника "Сотрудники" из модуля формы документа. В качестве фильтра для отбора служит значение перечислений. / / Событие "НачалоВыбора" реквизита на форме. . .
Переходник USB-CAN-GPIO
Eddy_Em 20.03.2026
Достаточно давно на работе возникла необходимость в переходнике CAN-USB с гальваноразвязкой, оный и был разработан. Однако, все меня терзала совесть, что аж 48-ногий МК используется так тупо: просто. . .
Оттенки серого
Argus19 18.03.2026
Оттенки серого Нашёл в интернете 3 прекрасных модуля: Модуль класса открытия диалога открытия/ сохранения файла на Win32 API; Модуль класса быстрого перекодирования цветного изображения в оттенки. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru