Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.88/8: Рейтинг темы: голосов - 8, средняя оценка - 4.88
1 / 1 / 0
Регистрация: 03.12.2015
Сообщений: 126

Парсинг html

01.12.2020, 13:24. Показов 1674. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Доброго времени суток, столкнулся с такой проблемой, как парсить теги h2 которые находятся в классе post__content typeset, при этом точно такой-же тег игнорировать в классах uagb-post-grid, делать с помощью bs4


делаю так, но получаю вообще все h2
name_category = soup.find(class_="post__content typeset").find_all("h2")
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
01.12.2020, 13:24
Ответы с готовыми решениями:

Парсинг HTML
У меня есть html документ, в котором записаны результаты матчей по теннису. Из данного html документа мне нужно получить названия лиг и...

Парсинг html страницы
Здравствуйте. Есть видео где мужик парсит html страницу и далее заносит все ссылки которые нашёл:...

Парсинг данных html
Здравствуйте, вот код с помощью которого я делаю парсинг сайта https://forexstandard.ru/countries-currency-in-the-world/. Данные удачно...

7
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
01.12.2020, 13:39
soberfrog, погадать по картинке? или давай сайт или кусок верстки с обоими классами, чтобы попробовать, я бы через lxml сделал по xpath локатору

Добавлено через 6 минут
а дивы не вложенные? вроде все норм
Python
1
2
3
4
5
>>> from bs4 import BeautifulSoup
>>> text = '<div class="a"><h2>TEXT_1</h2></div><div class="b"><h2>TEXT_2</h2></div>'
>>> soup = BeautifulSoup(text)
>>> soup.find(class_='a').findAll('h2')
[<h2>TEXT_1</h2>]
Добавлено через 1 минуту
сам спросил и сам отвечаю по твоей картинке - вложенный же второй то див! конечно он тебе и его H2 дает, ты же сам просишь findAll то есть перебрать всех потомков первого дива, а второй див лежит внутри
0
1 / 1 / 0
Регистрация: 03.12.2015
Сообщений: 126
01.12.2020, 13:46  [ТС]
Вот сайт: https://mobilelegends.metaplay.ru/geroi

Добавлено через 5 минут
Python
1
2
name_category = soup.find(class_="post__content typeset").findAll('h2')
print(name_category)
HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
[<h2><span id="Tanki">Танки</span></h2>, <h2 class="uagb-post__title"><span id="Atlas">
<a href="hero/tank/atlas.html" rel="bookmark noopener noreferrer" target="_self">Атлас</a>
</span></h2>, <h2 class="uagb-post__title"><span id="Baksij">
<a href="hero/tank/baksii.html" rel="bookmark noopener noreferrer" target="_self">Баксий</a>
</span></h2>, <h2 class="uagb-post__title"><span id="Hufra">
<a href="hero/tank/hufra.html" rel="bookmark noopener noreferrer" target="_self">Хуфра</a>
</span></h2>, <h2 class="uagb-post__title"><span id="Esmeralda">
<a href="hero/tank/jesmeralda.html" rel="bookmark noopener noreferrer" target="_self">Эсмеральда</a>
</span></h2>, <h2 class="uagb-post__title"><span id="Uranus">
<a href="hero/tank/uranus.html" rel="bookmark noopener noreferrer" target="_self">Уранус</a>
</span></h2>, <h2 class="uagb-post__title"><span id="Tigril">
<a href="hero/tank/tigril.html" rel="bookmark noopener noreferrer" target="_self">Тигрил</a>
</span></h2>, <h2 class="uagb-post__title"><span id="Dzonson">
<a href="hero/tank/dzhonson.html" rel="bookmark noopener noreferrer" target="_self">Джонсон</a>
</span></h2>, <h2 class="uagb-post__title"><span id="Hilos">
<a href="hero/tank/hilos.html" rel="bookmark noopener noreferrer" target="_self">Хилос</a>
</span></h2>, <h2 class="uagb-post__title"><span id="Grok">
<a href="hero/tank/grok.html" rel="bookmark noopener noreferrer" target="_self">Грок</a>
</span></h2>, <h2 class="uagb-post__title"><span id="Gatotkaca">
<a href="hero/tank/gatotkacha.html" rel="bookmark noopener noreferrer" target="_self">Гатоткача</a>
</span></h2>, <h2 class="uagb-post__title"><span id="Franko">
<a href="hero/tank/franko.html" rel="bookmark noopener noreferrer" target="_self">Франко</a>
</span></h2>, <h2 class="uagb-post__title"><span id="Belerik">
<a href="hero/tank/belerik.html" rel="bookmark noopener noreferrer" target="_self">Белерик</a>
</span></h2>, <h2 class="uagb-post__title"><span id="Akaj">
<a href="hero/tank/akaj.html" rel="bookmark noopener noreferrer" target="_self">Акай</a>
</span></h2>, <h2 class="uagb-post__title"><span id="Minotavr"> и т.д.
а мне нужно только получить:

HTML5
1
2
3
4
5
6
<h2><span id="Tanki">Танки</span></h2>
<h2><span id="Tanki">Боец</span></h2>
<h2><span id="Boec">Убийца</span></h2>
<h2><span id="Mag">Маг</span></h2>
<h2><span id="Strelok">Стрелок</span></h2>
<h2><span id="Podderzka">Поддержка</span></h2>
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
01.12.2020, 13:50
вот как достать потомков и их контент https://www.crummy.com/softwar... d-children

Добавлено через 3 минуты
берешь прямых потомков первого дива, отфильтровываешь только Н2 и достаешь их контент
0
1 / 1 / 0
Регистрация: 03.12.2015
Сообщений: 126
01.12.2020, 14:00  [ТС]
Как это сделать в коде?
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
01.12.2020, 14:14
Цитата Сообщение от soberfrog Посмотреть сообщение
Как это сделать в коде?
как минимум почитать по ссылке и посмотреть как потомков дочтают там. сделать также - находим первый див, достаем его потомков, фильтруем только х2 и вперед. Жду кода попыток
0
1 / 1 / 0
Регистрация: 03.12.2015
Сообщений: 126
01.12.2020, 15:47  [ТС]
первый див, Вы этот имеете ввиду?:
0
1 / 1 / 0
Регистрация: 03.12.2015
Сообщений: 126
01.12.2020, 17:17  [ТС]
Фууух... все получилось, вот так:

Python
1
2
3
4
5
name_category = soup.find(class_="post__content typeset")
children = name_category.findChildren("h2", recursive=False)
 
for child in children:
    print(child)
Результат:
HTML5
1
2
3
4
5
6
<h2><span id="Tanki">Танки</span></h2>
<h2><span id="Boec">Боец</span></h2>
<h2><span id="Ubijca">Убийца</span></h2>
<h2><span id="Mag">Маг</span></h2>
<h2><span id="Strelok">Стрелок</span></h2>
<h2><span id="Podderzka">Поддержка</span></h2>
Добавлено через 57 минут
Можно даже сократить:
Python
1
2
3
name_category = soup.find(class_="post__content typeset").findAll("h2", recursive=False)
for name in name_category:
    print(name)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
01.12.2020, 17:17
Помогаю со студенческими работами здесь

Мой парсинг html в json
Здравствуйте, я молодая кровь бэк-энда)) передомной стояла задача из HTML файла спарсить данные в JSON, задачу я выполнил, и готов...

Парсинг html страницы не работает
https://www.youtube.com/watch?v=MaWm1VpWj1A&amp;list=LLiAY9i8Qha2Vx2j21Jk88PA&amp;index=2&amp;t=696s в этом видео парень рассказывает как спарсить...

Парсинг html
Здравстувуйте. Начинаю изучать python. В качестве тренировочной задачи делаю такую Есть html страница. В ней есть столбец имя...

Парсинг HTML
Ну в общем, довольно заезженная тема, проведя на просторах интернета несколько часов, я это понял. Но вопросы все же остались. Суть...

Парсинг HTML
Добрый день. Учусь парсить странички. не получается собрать с html собрать нужный класс. Код: from selenium import webdriver from...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru