Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.91/11: Рейтинг темы: голосов - 11, средняя оценка - 4.91
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70

Python + BeautifulSoup

18.04.2021, 14:12. Показов 2365. Ответов 9
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет.
Есть 2 вопроса, может кто сталкивался подскажет:

1. При парсинге сайта нужно взять текст записи. После взятия класса, нужно из этого класса взять все тэги 'p' тк именно они содержат весь текст публикации. Дальше нужно положить это в словарь для дальнейшнего преобразования в JSON.
(Ниже приведен фрагмент кода)
При взятии всех тэгов p нельзя положить лист атрибутов в словарь (find_all уже пробовал). Просто find работает, но берет только первый тэг. Как можно это пофиксить?

Python
1
2
            text = soup.find('div', {'class': ['entry-content']})#find_all('p')
            recording['Text'] = text.get_text(strip=True)
2. Как можно из приведенных ниже строк найти имя "Булат Яббаров" ?

HTML5
1
2
3
<meta content="@tproger" name="twitter:creator"/>
<meta content="@tproger" name="twitter:site"/>
<meta content="Булат Яббаров" name="author"/>
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
18.04.2021, 14:12
Ответы с готовыми решениями:

Не работает BeautifulSoup Python
Хочу запарсить с сайта из вот этого фрагмента HTML: &lt;td data-val=&quot;3248&quot;...

Python + BeautifulSoup. Поиск содержимого в тегах
Всем доброго времени суток! Может кто подскажет как работать с содержимым класса? Конкретный вопрос: Есть класс с тэгом div,...

Парсинг форума через BeautifulSoup - Python
Самостоятельно занимаюсь изучением языка Python. Решил написать примитивный парсер сайта, используя библиотеку BeautifulSoup это код из...

9
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 14:52
Kamanaftius, а что документация по супу говорит? Там много чего полезного найти можно.
Python
1
2
3
4
5
6
7
8
9
from bs4 import BeautifulSoup
 
text = """<meta content="@tproger" name="twitter:creator"/>
<meta content="@tproger" name="twitter:site"/>
<meta content="Булат Яббаров" name="author"/>"""
 
soup = BeautifulSoup(text, 'lxml')
author = soup.find('meta', attrs={'name': 'author'})
print(author.attrs.get('content'))
1
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70
18.04.2021, 15:22  [ТС]
Данный атрибут так же нужно положить в словаь, на что возникает ошибка

Code
1
'str' object has no attribute 'get_text'
Прошу прощения что не уточнил сразу. Как можно преобразовать его так, что бы словарь принял?
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 15:32
Цитата Сообщение от Kamanaftius Посмотреть сообщение
Данный атрибут так же нужно положить в словаь, на что возникает ошибка
Какой данный? Какая у вас структура словаря? Если атрибут "content", то так и кладёте: ключ "content", значение "author.attrs.get('content')"
0
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70
18.04.2021, 15:39  [ТС]
Вот данный фрагмент кода.
Code
1
2
3
            author = soup.find('meta', attrs={'name': 'author'})
            author1 = author.attrs.get('content')
            recording['Author'] = author1.get_text(strip=True)
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 15:46
Kamanaftius, вам бы основы питона почитать для начала.
Python
1
2
            author = soup.find('meta', attrs={'name': 'author'})
            recording['Author'] = author.attrs.get('content')
0
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70
18.04.2021, 15:56  [ТС]
Спасибо, заработало, а по первому можете подсказать что то?
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 16:01
Цитата Сообщение от Kamanaftius Посмотреть сообщение
а по первому можете подсказать что то?
Могу) только я не понимаю чего вы хотите там.
0
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70
18.04.2021, 16:06  [ТС]
Данная конструкция парсит текст заключенный в классе ['entry-content'].
Класс содержит разные метки, я хочу взять весь текст в метках 'p', после чего залить его в словарь.
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 16:35
Python
1
2
3
4
5
6
7
8
9
10
11
from bs4 import BeautifulSoup
import requests
 
url = 'https://litfan.ru/testy/test-na-pisatelskie-sposobnosti/'
page = requests.get(url)
recording = {}
soup = BeautifulSoup(page.text, 'lxml')
article = soup.find('div', attrs={'class': 'entry-content'})
all_p = article.find_all('p')
text_from_p = (p.text.strip() for p in all_p)
recording['Text'] = ' '.join(text_from_p)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
18.04.2021, 16:35
Помогаю со студенческими работами здесь

Парсинг страницы python и получение запроса (beautifulSoup, requests)
Здравствуйте. Суть проблемы заключается в том, что для парсинга я получаю страницу, где должна быть таблица с данными, но в print(r.text)...

BeautifulSoup
Как с такого примера при помощи BeautifulSoup сделать словарь &lt;ul class=&quot;flist&quot;&gt; &lt;li&gt;&lt;span&gt;Год:&lt;/span&gt; 2022&lt;/li&gt; ...

Beautifulsoup
Добрый вечер! Не получается с beautifulsoup получить данные из html'а. Подскажите,как можно получить текст пятого td в tr? ...

Извлечение заголовков в BeautifulSoup
Подскажите, почему не извлекается содержимое тэгов h3? import requests from bs4 import BeautifulSoup as bs r =...

Xpath получить в beautifulsoup
Можно ли узнать Xpath елемента с помощью beautifulsoup?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Новые блоги и статьи
Программный контроль заполнения реквизита табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита "ПричинаСписания". . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Программное заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru