Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/5: Рейтинг темы: голосов - 5, средняя оценка - 5.00
0 / 0 / 0
Регистрация: 13.08.2016
Сообщений: 28

Парсинг BeautifulSoup

13.04.2020, 14:53. Показов 1062. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день. Имеется веб страница из которой нужно спарсить даты, имена и комментарии в формате:
23 мар. UserName: комментарий
24 мар. UserName: комментарий
и т.д

Помогите настроить поиск BeautifulSoup. Пошуршал в документации модуля, похожего не нашел, ну или не сообразил.
Как осуществить поиск только в определенном блоке, либо поиск в подродительском отделе. Так как все классы и атрибуты повторяются в других блоках.
Могу в лс скинуть саму html страницу
Кликните здесь для просмотра всего текста


Для основы:
Python
1
2
3
4
5
6
7
soup = BeautifulSoup(requiredHtml, 'html5lib')
main_date = soup.find_all(тут поиск даты)
main_name = soup.find_all(тут поиск имен)
main_comment = soup.find_all(а тут комменты)
 
print '\n'.join(' '.join( [item[0].text.strip() + ' .', item[1].text.strip()+ ': ', item[2].text.strip()])
                     for item in zip(main_date , main_name, main_comment))
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
13.04.2020, 14:53
Ответы с готовыми решениями:

Проблемы с парсингом BeautifulSoup
Здравствуйте, столкнулся с проблемой. Есть кусок сайта: <ul class="download_ul"> <li> <a href="ссылка 1"...

Подключить модуль BeautifulSoup Python
Мои данные: Python27 Windows XP Windows 7 Starter C:\Python27 ============================= Пытаюсь установить*модуль...

Найти больше трехсовпадений BeautifulSoup
url = f'https://??????????????????????event.php?id={item}&t=1x2' r = requests.get(url).text soup = bs(r,'lxml')...

6
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
13.04.2020, 15:57
Если дадите html или ссылку - посмотрю.
1
1 / 1 / 0
Регистрация: 11.02.2020
Сообщений: 24
13.04.2020, 16:21
Так ты же можешь взять подкласс и его значение когда уже получил родительский-класс, наподобие такого
Code
1
ink_is_true = link_is_true.find('td', class_=comment_data).get('data-o_id')
1
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
13.04.2020, 16:31
Послал ответ в ЛС.
1
6 / 5 / 1
Регистрация: 25.03.2020
Сообщений: 36
13.04.2020, 17:00
Смотря чем будете пользоваться CSS или Xpath или HTML в запросах, проще всего наверно, HTML. Находите классы и атрибуты к нужной инфе. посмотрите образец ниже:
Python
1
2
3
soup_post.find(class_='text-md text-muted m-r-md').attrs.get('datetime') 
soup_post.find(class_='text-lg text-dark').text
soup_post.find(style="text-decoration:none;").attrs.get('href')
запросы хорошо проверять в терминале, и так вы найдете нужные классы и атрибуты.
1
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
13.04.2020, 18:07
Цитата Сообщение от Bunnyone Посмотреть сообщение
Пошуршал в документации модуля
Не там шуршишь. Изучи XPATH и забудь BeautifulSoup, так как она все равно его не поддерживает.
Но для этого есть lxml.
1
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
13.04.2020, 18:43
Цитата Сообщение от Garry Galler Посмотреть сообщение
Изучи XPATH и забудь BeautifulSoup
Или изучи особенности обоих и реши, что подходит тебе больше для тех задач, которые ты решаешь.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
13.04.2020, 18:43
Помогаю со студенческими работами здесь

В Pycharm не получается установить библиотеку Beautifulsoup
Не могу установить ни одну библиотеку. Я захожу в settings нажимаю Python interpreter и там дальше по идее нужно нажать на плюс чтобы потом...

Как вытащить текст из данного HTML с помощью Beautifulsoup
Всем добрый вечер! Не могу понять как вытащить значение True из данного HTML с помощью Beautifulsoup, если можно, то без использования...

Как указать поиск только по одному классу BeautifulSoup
find_all('span', {"class":"c-events-scoreboard__cell"}) ищет все span в которых есть класс c-events-scoreboard__cell, как сделать чтобы...

Как получить определенную ячейку из таблицы с библ. beautifulsoup?
Столкнулся с проблемой при парсере сайта и не могу получить данную с табличке отдельно. Перепробовал всякое, но не могу сделать. Возможно...

Как вытащить значения из таблицы HTML используя BeautifulSoup
Здравствуйте! Я пытаюсь вытащить все значения из таблице, которые находятся в левой колонке с помощью beautifulSoup. Они находятся в теге...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
моя боль
iceja 24.01.2026
Выложила интерполяцию кубическими сплайнами www. iceja. net REST сервисы временно не работают, только через Web. Написала за 56 рабочих часов этот сайт с нуля. При помощи perplexity. ai PRO , при. . .
Модель сукцессии микоризы
anaschu 24.01.2026
Решили писать научную статью с неким РОманом
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь(не выше 3-го порядка) постоянного тока с элементами R, L, C, k(ключ), U, E, J. Программа находит переходные токи и напряжения на элементах схемы классическим методом(1 и 2 з-ны. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru