Форум программистов, компьютерный форум, киберфорум
Python: Решение задач
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
2 / 2 / 0
Регистрация: 20.04.2018
Сообщений: 48

Распарсить html строку по тегам через регулярки

25.10.2022, 16:25. Показов 648. Ответов 3

Студворк — интернет-сервис помощи студентам
Имеется html строка допустим
Info about Leela <span xml:lang="en" lang="en"><b><span>Turanga Leela</span></b></span><span>Super</span><span>girl</span>

Необходимо получить все теги этой строки (к примеру span) с самим телом, как видно у тегов есть вложенность, есть ли возможность получить каждый тег отдельно через регулярные выражения?
Вот результат:
<span xml:lang="en" lang="en"><b><span>Turanga Leela</span></b></span>
<span>Turanga Leela</span>
<span>Super</span>
<span>girl</span>
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
25.10.2022, 16:25
Ответы с готовыми решениями:

помогите распарсить HTML строку
Здравствуйте. Подскажите какое подобрать регулярное выражение чтобы распарсить вот такие строчки &lt;tr class=&quot;G1&quot;...

Распарсить строку HTML-кода
Всем привет. Посоветуйте как выйти из данной ситуации. Нужно вырезать ВСЁ из этого текста, &lt;div...

Regex: распарсить HTML-строку
Входная строка: Моя регулярка: Результат: Как видите, мне нужно получить текст стоящий перед &lt;x&gt;, но только в той...

3
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
25.10.2022, 18:22
С одним уровнем вложенности еще туда-сюда, а если больше, то алес

Добавлено через 1 минуту
Даже с одним уровнем монстр получится. Так что идея так себе.
Ну или циклами/рекурсией бегать с регулярками.

Добавлено через 7 минут
Хотя...
Python
1
2
3
4
import regex as re
 
s = 'Info about Leela <span xml:lang="en" lang="en"><b><span>Turanga Leela</span></b></span><span>Super</span><span>girl</span>'
print(*[i[0] for i in re.finditer(r'<(\w+).*?</\1>', s, overlapped=True)], sep='\n')
Code
1
2
3
4
5
<span xml:lang="en" lang="en"><b><span>Turanga Leela</span>
<b><span>Turanga Leela</span></b>
<span>Turanga Leela</span>
<span>Super</span>
<span>girl</span>
Dezoway, попрёт?

Добавлено через 43 секунды
Первая строчка некошерная
1
25.10.2022, 18:58

Не по теме:

del

Не пойдет, думал, может обычным способом можно.

0
2 / 2 / 0
Регистрация: 20.04.2018
Сообщений: 48
26.10.2022, 08:26  [ТС]
Пойдёт, спасибо!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
26.10.2022, 08:26
Помогаю со студенческими работами здесь

Как распарсить строку с HTML-страницы
Здравствуйте форумчанены =) Подскажите, нужно из строки html файла, примерного вида &lt;area href=&quot;http://site.com/p2&quot;...

Каким способом лучше разить строку: через регулярки или сплитом?
Здравствуйте. Подскажите пожалуйста в следующем вопросе. Имеется строка такого вида: 199.72.81.55 - - &quot;GET /history/apollo/...

Распарсить html-строку и узнать, какой текст и как был отформатирован
Вообщем имеется строка такого типа &quot;new text&lt;b&gt;text b&lt;/b&gt;&lt;i&gt;text i&lt;b&gt;text b i &lt;/b&gt;&lt;/i&gt;&quot; Нужно достать обычный текст, жирный текст и...

Распарсить страницу через Html Agility Pack
Имеется страница с разметкой такого Типа : &lt;span id='1_46' class='tree1_1' onclick=&quot;collapse('1_46','2_46')&quot;;&gt;ФАКТОРЫ...

Парсинг по определенным html-тегам
Приветствую. Такая задача: есть html страница, в коде которой встречаются вот такие конструкции &lt;div...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
Жизнь в неопределённости
kumehtar 23.03.2026
Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .
Модель здравоСохранения: работники работают быстрее после её введения.
anaschu 23.03.2026
geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .
1С: Контроль уникальности заводского номера
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере документа выдачи шин для спецтехники с табличной частью. Данные берутся из регистра сведений, по которому настроено. . .
Хочу заставить корпорации вкладываться в здоровье сотрудников: делаю мат модель здравосохранения
anaschu 22.03.2026
e7EYtONaj8Y Z4Tv2zpXVVo https:/ / github. com/ shumilovas/ med2. git
1С: Программный отбор элементов справочника по группе
Maks 22.03.2026
Установка программного отбора элементов справочника "Номенклатура" из модуля формы документа. В качестве фильтра для отбора справочника служит группа номенклатуры. Отбор по наименованию группы. . .
Как я обхитрил таблицу Word
Alexander-7 21.03.2026
Когда мигает курсор у внешнего края таблицы, и нам надо перейти на новую строку, а при нажатии Enter создается новый ряд таблицы с ячейками, то мы вместо нервных нажатий Энтеров мы пишем любые буквы. . .
Krabik - рыболовный бот для WoW 3.3.5a
AmbA 21.03.2026
без регистрации и смс. Это не торговля, приложение не содержит рекламы. Выполняет свою непосредственную задачу - автоматизацию рыбалки в WoW - и ничего более. Однако если админы будут против -. . .
1С: Программный отбор элементов справочника по значению перечисления
Maks 21.03.2026
Установка программного отбора элементов справочника "Сотрудники" из модуля формы документа. В качестве фильтра для отбора служит значение перечислений. / / Событие "НачалоВыбора" реквизита на форме. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru