0 / 0 / 0
Регистрация: 13.08.2016
Сообщений: 28

Парсинг BeautifulSoup

13.04.2020, 14:53. Показов 1102. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день. Имеется веб страница из которой нужно спарсить даты, имена и комментарии в формате:
23 мар. UserName: комментарий
24 мар. UserName: комментарий
и т.д

Помогите настроить поиск BeautifulSoup. Пошуршал в документации модуля, похожего не нашел, ну или не сообразил.
Как осуществить поиск только в определенном блоке, либо поиск в подродительском отделе. Так как все классы и атрибуты повторяются в других блоках.
Могу в лс скинуть саму html страницу
Кликните здесь для просмотра всего текста


Для основы:
Python
1
2
3
4
5
6
7
soup = BeautifulSoup(requiredHtml, 'html5lib')
main_date = soup.find_all(тут поиск даты)
main_name = soup.find_all(тут поиск имен)
main_comment = soup.find_all(а тут комменты)
 
print '\n'.join(' '.join( [item[0].text.strip() + ' .', item[1].text.strip()+ ': ', item[2].text.strip()])
                     for item in zip(main_date , main_name, main_comment))
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
13.04.2020, 14:53
Ответы с готовыми решениями:

Проблемы с парсингом BeautifulSoup
Здравствуйте, столкнулся с проблемой. Есть кусок сайта: <ul class="download_ul"> <li> <a href="ссылка 1"...

Подключить модуль BeautifulSoup Python
Мои данные: Python27 Windows XP Windows 7 Starter C:\Python27 ============================= Пытаюсь установить*модуль...

Найти больше трехсовпадений BeautifulSoup
url = f'https://??????????????????????event.php?id={item}&t=1x2' r = requests.get(url).text soup = bs(r,'lxml')...

6
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
13.04.2020, 15:57
Если дадите html или ссылку - посмотрю.
1
1 / 1 / 0
Регистрация: 11.02.2020
Сообщений: 24
13.04.2020, 16:21
Так ты же можешь взять подкласс и его значение когда уже получил родительский-класс, наподобие такого
Code
1
ink_is_true = link_is_true.find('td', class_=comment_data).get('data-o_id')
1
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
13.04.2020, 16:31
Послал ответ в ЛС.
1
6 / 5 / 1
Регистрация: 25.03.2020
Сообщений: 36
13.04.2020, 17:00
Смотря чем будете пользоваться CSS или Xpath или HTML в запросах, проще всего наверно, HTML. Находите классы и атрибуты к нужной инфе. посмотрите образец ниже:
Python
1
2
3
soup_post.find(class_='text-md text-muted m-r-md').attrs.get('datetime') 
soup_post.find(class_='text-lg text-dark').text
soup_post.find(style="text-decoration:none;").attrs.get('href')
запросы хорошо проверять в терминале, и так вы найдете нужные классы и атрибуты.
1
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
13.04.2020, 18:07
Цитата Сообщение от Bunnyone Посмотреть сообщение
Пошуршал в документации модуля
Не там шуршишь. Изучи XPATH и забудь BeautifulSoup, так как она все равно его не поддерживает.
Но для этого есть lxml.
1
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
13.04.2020, 18:43
Цитата Сообщение от Garry Galler Посмотреть сообщение
Изучи XPATH и забудь BeautifulSoup
Или изучи особенности обоих и реши, что подходит тебе больше для тех задач, которые ты решаешь.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
13.04.2020, 18:43
Помогаю со студенческими работами здесь

В Pycharm не получается установить библиотеку Beautifulsoup
Не могу установить ни одну библиотеку. Я захожу в settings нажимаю Python interpreter и там дальше по идее нужно нажать на плюс чтобы потом...

Как вытащить текст из данного HTML с помощью Beautifulsoup
Всем добрый вечер! Не могу понять как вытащить значение True из данного HTML с помощью Beautifulsoup, если можно, то без использования...

Как указать поиск только по одному классу BeautifulSoup
find_all('span', {"class":"c-events-scoreboard__cell"}) ищет все span в которых есть класс c-events-scoreboard__cell, как сделать чтобы...

Как получить определенную ячейку из таблицы с библ. beautifulsoup?
Столкнулся с проблемой при парсере сайта и не могу получить данную с табличке отдельно. Перепробовал всякое, но не могу сделать. Возможно...

Как вытащить значения из таблицы HTML используя BeautifulSoup
Здравствуйте! Я пытаюсь вытащить все значения из таблице, которые находятся в левой колонке с помощью beautifulSoup. Они находятся в теге...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Опции темы

Новые блоги и статьи
Отчёт о затраченных материалах за определенный период с макетом печатной формы
Maks 21.04.2026
Отчёт из решения ниже размещён в конфигурации КА2. Задача: разработка отчёта по затраченным материалам за определённый период, с возможностью вывода печатной формы отчёта с шапкой и подвалом. В. . .
Отчёт о спецтехнике находящейся в ремонте
Maks 20.04.2026
Отчёт из решения ниже размещен в конфигурации КА2. Задача: отобразить спецтехнику, которая на данный момент находится в ремонте. Есть нетиповой документ "Заявка на ремонт спецтехники" который. . .
Памятка для бота и "визитка" для читателей "Semantic Universe Layer (Слой семантической вселенной)"
Hrethgir 19.04.2026
Сгенерировано для краткого описания по случаю сборки и компиляции скелета серверного приложения. И пусть после этого скажут, что статьи сгенерированные AI - туфта и не интересно. И это не реклама -. . .
Запрет удаления строк ТЧ документа при определённом условии
Maks 19.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "Аккумуляторы", разработанного в конфигурации КА2. У данного документа есть ТЧ, в которой в зависимости от прав доступа. . .
Модель заражения группы наркоманов
alhaos 17.04.2026
Условия задачи сформулированы тут Суть: - Группа наркоманов из 10 человек. - Только один инфицирован ВИЧ. - Колются одной иглой. - Колются раз в день. - Колются последовательно через. . .
Мысли в слух. Про "навсегда".
kumehtar 16.04.2026
Подумалось тут, что наверное очень глупо использовать во всяких своих установках понятие "навсегда". Это очень сильное понятие, и я только начинаю понимать край его смысла, не смотря на то что давно. . .
My Business CRM
MaGz GoLd 16.04.2026
Всем привет, недавно возникла потребность создать CRM, для личных нужд. Собственно программа предоставляет из себя базу данных клиентов, в которой можно фиксировать звонки, стадии сделки, а также. . .
Знаешь почему 90% людей редко бывают счастливыми?
kumehtar 14.04.2026
Потому что они ждут. Ждут выходных, ждут отпуска, ждут удачного момента. . . а удачный момент так и не приходит.
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru