Форум программистов, компьютерный форум, киберфорум
Python: Решение задач
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/3: Рейтинг темы: голосов - 3, средняя оценка - 4.67
 Аватар для borockov
4 / 4 / 3
Регистрация: 05.11.2012
Сообщений: 245

Парсинг по порядку или парсинг до определенного тега

20.03.2023, 19:36. Показов 903. Ответов 2

Студворк — интернет-сервис помощи студентам
Доброго времени друзья! Подскажите пожалуйста, к примеру есть вот такой html код:
HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
<div class="container mt-3">
<h2>Bentley Bentayga 2015 - ... с бензиновым двигателем </h2>
<a class="row table-row text-left text-sm-center p-3 t-mob" href="/chip-tuning/bentley/bentayga/2015/4.0-550-ls">
<span class="mob-label mod">Bentley Bentayga 4.0 550 лс</span>
<span class="mob-label vol">3996 см<span style="font-family:arial;">?</span></span>
<span class="mob-label hp">550 лс</span>
<span class="mob-label nm">770 нм</span>
</a>
<a class="row table-row text-left text-sm-center p-3 t-mob" href="/chip-tuning/bentley/bentayga/2015/6.0-635-ls">
<span class="mob-label mod">Bentley Bentayga 6.0 635 лс</span>
<span class="mob-label vol">5998 см<span style="font-family:arial;">?</span></span>
<span class="mob-label hp">635 лс</span>
<span class="mob-label nm">900 нм</span>
</a>
<h2>Bentley Bentayga 2015 - ... с дизельным двигателем </h2>
<div class="row table-head d-none d-sm-flex text-left text-sm-center">
<div class="col-5">Модификация</div>
<div class="col-3">Объем двигателя</div>
<div class="col-1">Мощность</div>
<div class="col-3">Крутящий момент</div>
</div>
<a class="row table-row text-left text-sm-center p-3 t-mob" href="/chip-tuning/bentley/bentayga/2015/4.0-tdi-435-ls">
<span class="mob-label mod">Bentley Bentayga 4.0 TDI 435 лс</span>
<span class="mob-label vol">3956 см<span style="font-family:arial;">?</span></span>
<span class="mob-label hp">435 лс</span>
<span class="mob-label nm">900 нм</span>
</a>
</div>
Из такой html страницы мне необходимо выдернуть:
1.Первый тег h2
2. Затем выдернуть данные, которые находятся внутри класса mob-label до второго тега h2
Для парсера использую python+requests+bs4, данные я получаю без проблем, но я хочу получить данные только до конкретного тега
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
20.03.2023, 19:36
Ответы с готовыми решениями:

Парсинг XML (получение строки из определённого тега)
здравствуйте, есть xml-документ который необходимо пропарсить: &lt;?xml version=&quot;1.0&quot; encoding=&quot;utf-8&quot;?&gt; &lt;rss...

парсинг тега
например, дана строка &lt;rob name=&quot;lol&quot; value=&quot;2&quot; x=&quot;1.0&quot; type=&quot;3&quot; /&gt; мне нужно спарсить в php определённые данные независимо от...

Парсинг тега img
У меня есть ссылка http://duckandcover.ru/wotka?search=clan&amp;nickname=4otd&amp;server=RU в ней есть изображение &lt;img...

2
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
20.03.2023, 20:09
Лучший ответ Сообщение было отмечено borockov как решение

Решение

borockov, на бс есть похожие методы, она под капотом использует именно lxml

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
>>> from lxml import html
>>> content ='' # тут твоя страница из примера
>>> parsed = html.fromstring(content)
>>> first_h2 = parsed.xpath('//h2')[0]
>>> for element in first_h2.itersiblings():
...     if element.tag!='a':
...         break
...     data = [e.text for e in element.iterchildren()]
...     print(data)
... 
['Bentley Bentayga 4.0 550 лс', '3996 см', '550 лс', '770 нм']
['Bentley Bentayga 6.0 635 лс', '5998 см', '635 лс', '900 нм']
>>>
1
 Аватар для borockov
4 / 4 / 3
Регистрация: 05.11.2012
Сообщений: 245
20.03.2023, 23:17  [ТС]
О, спасибо большое =)))
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
20.03.2023, 23:17
Помогаю со студенческими работами здесь

Парсинг тега <div>
Есть следующий тег &lt;div class=&quot;AБРАКАДАБРА&quot;&gt; &lt;div AAA=&quot;TEXT&quot;&gt;&lt;/div&gt; ..... &lt;div AAA=&quot;TEXT&quot;&gt;&lt;/div&gt; .... &lt;div...

Парсинг из тега по страницам
Нужно спарсить ники пользователей на сайте. Посмотрел тему https://www.cyberforum.ru/delphi-beginners/thread814186.html#post4285219 но не...

Парсинг тега <span>
Есть следующий тег &lt;div class=&quot;AБРАКАДАБРА&quot;&gt; &lt;span class=&quot;nowrap&quot;&gt;AAA&lt;/span&gt; &lt;span class=&quot;nowrap&quot;&gt;BBB&lt;/span&gt; &lt;span...

Selenium парсинг тега python
Здраствуйте! Имею следущую ссылку https://t.me/stopcoronavirusrussia/685 Нужно спарсить время из атрибута datatime тега time Делал...

Парсинг одного тега XML из нескольких одинаковых
Имеется такой XML код:&lt;br&gt; &lt;тег1&gt; &lt;тег2&gt;Яблоко&lt;/тег2&gt; &lt;тег2&gt;Вишня&lt;/тег2&gt; ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru