Форум программистов, компьютерный форум, киберфорум
Python: Решение задач
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/3: Рейтинг темы: голосов - 3, средняя оценка - 4.67
 Аватар для borockov
4 / 4 / 3
Регистрация: 05.11.2012
Сообщений: 245

Парсинг по порядку или парсинг до определенного тега

20.03.2023, 19:36. Показов 949. Ответов 2

Студворк — интернет-сервис помощи студентам
Доброго времени друзья! Подскажите пожалуйста, к примеру есть вот такой html код:
HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
<div class="container mt-3">
<h2>Bentley Bentayga 2015 - ... с бензиновым двигателем </h2>
<a class="row table-row text-left text-sm-center p-3 t-mob" href="/chip-tuning/bentley/bentayga/2015/4.0-550-ls">
<span class="mob-label mod">Bentley Bentayga 4.0 550 лс</span>
<span class="mob-label vol">3996 см<span style="font-family:arial;">?</span></span>
<span class="mob-label hp">550 лс</span>
<span class="mob-label nm">770 нм</span>
</a>
<a class="row table-row text-left text-sm-center p-3 t-mob" href="/chip-tuning/bentley/bentayga/2015/6.0-635-ls">
<span class="mob-label mod">Bentley Bentayga 6.0 635 лс</span>
<span class="mob-label vol">5998 см<span style="font-family:arial;">?</span></span>
<span class="mob-label hp">635 лс</span>
<span class="mob-label nm">900 нм</span>
</a>
<h2>Bentley Bentayga 2015 - ... с дизельным двигателем </h2>
<div class="row table-head d-none d-sm-flex text-left text-sm-center">
<div class="col-5">Модификация</div>
<div class="col-3">Объем двигателя</div>
<div class="col-1">Мощность</div>
<div class="col-3">Крутящий момент</div>
</div>
<a class="row table-row text-left text-sm-center p-3 t-mob" href="/chip-tuning/bentley/bentayga/2015/4.0-tdi-435-ls">
<span class="mob-label mod">Bentley Bentayga 4.0 TDI 435 лс</span>
<span class="mob-label vol">3956 см<span style="font-family:arial;">?</span></span>
<span class="mob-label hp">435 лс</span>
<span class="mob-label nm">900 нм</span>
</a>
</div>
Из такой html страницы мне необходимо выдернуть:
1.Первый тег h2
2. Затем выдернуть данные, которые находятся внутри класса mob-label до второго тега h2
Для парсера использую python+requests+bs4, данные я получаю без проблем, но я хочу получить данные только до конкретного тега
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
20.03.2023, 19:36
Ответы с готовыми решениями:

Парсинг XML (получение строки из определённого тега)
здравствуйте, есть xml-документ который необходимо пропарсить: &lt;?xml version=&quot;1.0&quot; encoding=&quot;utf-8&quot;?&gt; &lt;rss...

парсинг тега
например, дана строка &lt;rob name=&quot;lol&quot; value=&quot;2&quot; x=&quot;1.0&quot; type=&quot;3&quot; /&gt; мне нужно спарсить в php определённые данные независимо от...

Парсинг тега img
У меня есть ссылка http://duckandcover.ru/wotka?search=clan&amp;nickname=4otd&amp;server=RU в ней есть изображение &lt;img...

2
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,694
Записей в блоге: 29
20.03.2023, 20:09
Лучший ответ Сообщение было отмечено borockov как решение

Решение

borockov, на бс есть похожие методы, она под капотом использует именно lxml

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
>>> from lxml import html
>>> content ='' # тут твоя страница из примера
>>> parsed = html.fromstring(content)
>>> first_h2 = parsed.xpath('//h2')[0]
>>> for element in first_h2.itersiblings():
...     if element.tag!='a':
...         break
...     data = [e.text for e in element.iterchildren()]
...     print(data)
... 
['Bentley Bentayga 4.0 550 лс', '3996 см', '550 лс', '770 нм']
['Bentley Bentayga 6.0 635 лс', '5998 см', '635 лс', '900 нм']
>>>
1
 Аватар для borockov
4 / 4 / 3
Регистрация: 05.11.2012
Сообщений: 245
20.03.2023, 23:17  [ТС]
О, спасибо большое =)))
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
20.03.2023, 23:17
Помогаю со студенческими работами здесь

Парсинг тега <div>
Есть следующий тег &lt;div class=&quot;AБРАКАДАБРА&quot;&gt; &lt;div AAA=&quot;TEXT&quot;&gt;&lt;/div&gt; ..... &lt;div AAA=&quot;TEXT&quot;&gt;&lt;/div&gt; .... &lt;div...

Парсинг из тега по страницам
Нужно спарсить ники пользователей на сайте. Посмотрел тему https://www.cyberforum.ru/delphi-beginners/thread814186.html#post4285219 но не...

Парсинг тега <span>
Есть следующий тег &lt;div class=&quot;AБРАКАДАБРА&quot;&gt; &lt;span class=&quot;nowrap&quot;&gt;AAA&lt;/span&gt; &lt;span class=&quot;nowrap&quot;&gt;BBB&lt;/span&gt; &lt;span...

Selenium парсинг тега python
Здраствуйте! Имею следущую ссылку https://t.me/stopcoronavirusrussia/685 Нужно спарсить время из атрибута datatime тега time Делал...

Парсинг одного тега XML из нескольких одинаковых
Имеется такой XML код:&lt;br&gt; &lt;тег1&gt; &lt;тег2&gt;Яблоко&lt;/тег2&gt; &lt;тег2&gt;Вишня&lt;/тег2&gt; ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Функция заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
10 пpимет, которые всегда сбываются
Maks 31.03.2026
1. Чтобы, наконец, пришла маршрутка, надо закурить. Если сигарета последняя, маршрутка придет еще до второй затяжки даже вопреки расписанию. 2. Нaдоели зима и снег? Не надо переезжать. Достаточно. . .
Перемещение выделенных строк ТЧ из одного документа в другой
Maks 31.03.2026
Реализация из решения ниже выполнена на примере нетипового документа "ВыдачаОборудованияНаСпецтехнику" с единственной табличной частью "ОборудованиеИКомплектующие" разработанного в конфигурации КА2. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru