Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.91/11: Рейтинг темы: голосов - 11, средняя оценка - 4.91
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70

Python + BeautifulSoup

18.04.2021, 14:12. Показов 2332. Ответов 9
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет.
Есть 2 вопроса, может кто сталкивался подскажет:

1. При парсинге сайта нужно взять текст записи. После взятия класса, нужно из этого класса взять все тэги 'p' тк именно они содержат весь текст публикации. Дальше нужно положить это в словарь для дальнейшнего преобразования в JSON.
(Ниже приведен фрагмент кода)
При взятии всех тэгов p нельзя положить лист атрибутов в словарь (find_all уже пробовал). Просто find работает, но берет только первый тэг. Как можно это пофиксить?

Python
1
2
            text = soup.find('div', {'class': ['entry-content']})#find_all('p')
            recording['Text'] = text.get_text(strip=True)
2. Как можно из приведенных ниже строк найти имя "Булат Яббаров" ?

HTML5
1
2
3
<meta content="@tproger" name="twitter:creator"/>
<meta content="@tproger" name="twitter:site"/>
<meta content="Булат Яббаров" name="author"/>
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
18.04.2021, 14:12
Ответы с готовыми решениями:

Не работает BeautifulSoup Python
Хочу запарсить с сайта из вот этого фрагмента HTML: &lt;td data-val=&quot;3248&quot;...

Python + BeautifulSoup. Поиск содержимого в тегах
Всем доброго времени суток! Может кто подскажет как работать с содержимым класса? Конкретный вопрос: Есть класс с тэгом div,...

Парсинг форума через BeautifulSoup - Python
Самостоятельно занимаюсь изучением языка Python. Решил написать примитивный парсер сайта, используя библиотеку BeautifulSoup это код из...

9
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 14:52
Kamanaftius, а что документация по супу говорит? Там много чего полезного найти можно.
Python
1
2
3
4
5
6
7
8
9
from bs4 import BeautifulSoup
 
text = """<meta content="@tproger" name="twitter:creator"/>
<meta content="@tproger" name="twitter:site"/>
<meta content="Булат Яббаров" name="author"/>"""
 
soup = BeautifulSoup(text, 'lxml')
author = soup.find('meta', attrs={'name': 'author'})
print(author.attrs.get('content'))
1
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70
18.04.2021, 15:22  [ТС]
Данный атрибут так же нужно положить в словаь, на что возникает ошибка

Code
1
'str' object has no attribute 'get_text'
Прошу прощения что не уточнил сразу. Как можно преобразовать его так, что бы словарь принял?
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 15:32
Цитата Сообщение от Kamanaftius Посмотреть сообщение
Данный атрибут так же нужно положить в словаь, на что возникает ошибка
Какой данный? Какая у вас структура словаря? Если атрибут "content", то так и кладёте: ключ "content", значение "author.attrs.get('content')"
0
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70
18.04.2021, 15:39  [ТС]
Вот данный фрагмент кода.
Code
1
2
3
            author = soup.find('meta', attrs={'name': 'author'})
            author1 = author.attrs.get('content')
            recording['Author'] = author1.get_text(strip=True)
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 15:46
Kamanaftius, вам бы основы питона почитать для начала.
Python
1
2
            author = soup.find('meta', attrs={'name': 'author'})
            recording['Author'] = author.attrs.get('content')
0
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70
18.04.2021, 15:56  [ТС]
Спасибо, заработало, а по первому можете подсказать что то?
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 16:01
Цитата Сообщение от Kamanaftius Посмотреть сообщение
а по первому можете подсказать что то?
Могу) только я не понимаю чего вы хотите там.
0
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70
18.04.2021, 16:06  [ТС]
Данная конструкция парсит текст заключенный в классе ['entry-content'].
Класс содержит разные метки, я хочу взять весь текст в метках 'p', после чего залить его в словарь.
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 16:35
Python
1
2
3
4
5
6
7
8
9
10
11
from bs4 import BeautifulSoup
import requests
 
url = 'https://litfan.ru/testy/test-na-pisatelskie-sposobnosti/'
page = requests.get(url)
recording = {}
soup = BeautifulSoup(page.text, 'lxml')
article = soup.find('div', attrs={'class': 'entry-content'})
all_p = article.find_all('p')
text_from_p = (p.text.strip() for p in all_p)
recording['Text'] = ' '.join(text_from_p)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
18.04.2021, 16:35
Помогаю со студенческими работами здесь

Парсинг страницы python и получение запроса (beautifulSoup, requests)
Здравствуйте. Суть проблемы заключается в том, что для парсинга я получаю страницу, где должна быть таблица с данными, но в print(r.text)...

BeautifulSoup
Как с такого примера при помощи BeautifulSoup сделать словарь &lt;ul class=&quot;flist&quot;&gt; &lt;li&gt;&lt;span&gt;Год:&lt;/span&gt; 2022&lt;/li&gt; ...

Beautifulsoup
Добрый вечер! Не получается с beautifulsoup получить данные из html'а. Подскажите,как можно получить текст пятого td в tr? ...

Извлечение заголовков в BeautifulSoup
Подскажите, почему не извлекается содержимое тэгов h3? import requests from bs4 import BeautifulSoup as bs r =...

Xpath получить в beautifulsoup
Можно ли узнать Xpath елемента с помощью beautifulsoup?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Новые блоги и статьи
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
Киев стоит - украинская песня
zorxor 28.01.2026
wfWdiRqdTxc О Господи, Вечный, Ты . . . Я помоги, Бесконечный. . . Я прошу Ты. . . Я погибаю, спаси. . . Я прошу Тебя Вечный. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
влияние грибов на сукцессию
anaschu 26.01.2026
Бифуркационные изменения массы гриба происходят тогда, когда мы уменьшаем массу компоста в 10 раз, а скорость прироста биомассы уменьшаем в три раза. Скорость прироста биомассы может уменьшаться за. . .
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip" Извлеките архив и вы увидите. . .
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д. Сборка примера Скачайте. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru