0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70

Python + BeautifulSoup

18.04.2021, 14:12. Показов 2343. Ответов 9
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет.
Есть 2 вопроса, может кто сталкивался подскажет:

1. При парсинге сайта нужно взять текст записи. После взятия класса, нужно из этого класса взять все тэги 'p' тк именно они содержат весь текст публикации. Дальше нужно положить это в словарь для дальнейшнего преобразования в JSON.
(Ниже приведен фрагмент кода)
При взятии всех тэгов p нельзя положить лист атрибутов в словарь (find_all уже пробовал). Просто find работает, но берет только первый тэг. Как можно это пофиксить?

Python
1
2
            text = soup.find('div', {'class': ['entry-content']})#find_all('p')
            recording['Text'] = text.get_text(strip=True)
2. Как можно из приведенных ниже строк найти имя "Булат Яббаров" ?

HTML5
1
2
3
<meta content="@tproger" name="twitter:creator"/>
<meta content="@tproger" name="twitter:site"/>
<meta content="Булат Яббаров" name="author"/>
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
18.04.2021, 14:12
Ответы с готовыми решениями:

Не работает BeautifulSoup Python
Хочу запарсить с сайта из вот этого фрагмента HTML: &lt;td data-val=&quot;3248&quot;...

Python + BeautifulSoup. Поиск содержимого в тегах
Всем доброго времени суток! Может кто подскажет как работать с содержимым класса? Конкретный вопрос: Есть класс с тэгом div,...

Парсинг форума через BeautifulSoup - Python
Самостоятельно занимаюсь изучением языка Python. Решил написать примитивный парсер сайта, используя библиотеку BeautifulSoup это код из...

9
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 14:52
Kamanaftius, а что документация по супу говорит? Там много чего полезного найти можно.
Python
1
2
3
4
5
6
7
8
9
from bs4 import BeautifulSoup
 
text = """<meta content="@tproger" name="twitter:creator"/>
<meta content="@tproger" name="twitter:site"/>
<meta content="Булат Яббаров" name="author"/>"""
 
soup = BeautifulSoup(text, 'lxml')
author = soup.find('meta', attrs={'name': 'author'})
print(author.attrs.get('content'))
1
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70
18.04.2021, 15:22  [ТС]
Данный атрибут так же нужно положить в словаь, на что возникает ошибка

Code
1
'str' object has no attribute 'get_text'
Прошу прощения что не уточнил сразу. Как можно преобразовать его так, что бы словарь принял?
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 15:32
Цитата Сообщение от Kamanaftius Посмотреть сообщение
Данный атрибут так же нужно положить в словаь, на что возникает ошибка
Какой данный? Какая у вас структура словаря? Если атрибут "content", то так и кладёте: ключ "content", значение "author.attrs.get('content')"
0
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70
18.04.2021, 15:39  [ТС]
Вот данный фрагмент кода.
Code
1
2
3
            author = soup.find('meta', attrs={'name': 'author'})
            author1 = author.attrs.get('content')
            recording['Author'] = author1.get_text(strip=True)
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 15:46
Kamanaftius, вам бы основы питона почитать для начала.
Python
1
2
            author = soup.find('meta', attrs={'name': 'author'})
            recording['Author'] = author.attrs.get('content')
0
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70
18.04.2021, 15:56  [ТС]
Спасибо, заработало, а по первому можете подсказать что то?
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 16:01
Цитата Сообщение от Kamanaftius Посмотреть сообщение
а по первому можете подсказать что то?
Могу) только я не понимаю чего вы хотите там.
0
0 / 0 / 0
Регистрация: 14.03.2018
Сообщений: 70
18.04.2021, 16:06  [ТС]
Данная конструкция парсит текст заключенный в классе ['entry-content'].
Класс содержит разные метки, я хочу взять весь текст в метках 'p', после чего залить его в словарь.
0
Эксперт Python
 Аватар для АмигоСП
295 / 108 / 57
Регистрация: 07.12.2016
Сообщений: 209
18.04.2021, 16:35
Python
1
2
3
4
5
6
7
8
9
10
11
from bs4 import BeautifulSoup
import requests
 
url = 'https://litfan.ru/testy/test-na-pisatelskie-sposobnosti/'
page = requests.get(url)
recording = {}
soup = BeautifulSoup(page.text, 'lxml')
article = soup.find('div', attrs={'class': 'entry-content'})
all_p = article.find_all('p')
text_from_p = (p.text.strip() for p in all_p)
recording['Text'] = ' '.join(text_from_p)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
18.04.2021, 16:35
Помогаю со студенческими работами здесь

Парсинг страницы python и получение запроса (beautifulSoup, requests)
Здравствуйте. Суть проблемы заключается в том, что для парсинга я получаю страницу, где должна быть таблица с данными, но в print(r.text)...

BeautifulSoup
Как с такого примера при помощи BeautifulSoup сделать словарь &lt;ul class=&quot;flist&quot;&gt; &lt;li&gt;&lt;span&gt;Год:&lt;/span&gt; 2022&lt;/li&gt; ...

Beautifulsoup
Добрый вечер! Не получается с beautifulsoup получить данные из html'а. Подскажите,как можно получить текст пятого td в tr? ...

Извлечение заголовков в BeautifulSoup
Подскажите, почему не извлекается содержимое тэгов h3? import requests from bs4 import BeautifulSoup as bs r =...

Xpath получить в beautifulsoup
Можно ли узнать Xpath елемента с помощью beautifulsoup?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Опции темы

Новые блоги и статьи
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11680&amp;d=1772460536 Одним из. . .
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten
8Observer8 27.02.2026
Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru