Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 4.53/15: Рейтинг темы: голосов - 15, средняя оценка - 4.53
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,753

Как работать с BeautifulSoup?

17.08.2022, 12:47. Показов 3657. Ответов 29
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Не могу понять эту конструкцию.
Python
1
print(soup.html.nextSibling == None) # True
Полный код:
Python
1
2
3
4
5
6
7
doc = ['<html><head><title>Page title</title></head>',
       '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.',
       '<p id="secondpara" align="blah">This is paragraph <b>two</b>.',
       '</html>']
soup = BeautifulSoup(''.join(doc))
print(soup.html.nextSibling == None) # True
# Источник http://wiki.python.su/Документации/BeautifulSoup
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
17.08.2022, 12:47
Ответы с готовыми решениями:

Как решить проблему с установкой BeautifulSoup
привет всем подскажите как решить проблему с установкой BeautifulSoup выскакивает вот такая ошибка при установке через pip и через...

Как искать следующий элемент в BeautifulSoup
Спарсил страницу в ней таблица &lt;tbody _ngcontent-boerse-frankfurt-c136=&quot;&quot;&gt; &lt;tr _ngcontent-boerse-frankfurt-c136=&quot;&quot;...

Как используя BeautifulSoup и requests чтобы считать надпись на кнопке ?
Как на питон реализовать считывание надписи на кнопке и вывести ее в консоль Вот сам класс на html &lt;div...

29
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
17.08.2022, 13:23
supmener, ты совсем плох? Прям по твоей же ссылке, прям сверху над этим вот кодом все написано. Подробно и по русски.

Добавлено через 1 минуту
Или ты принципиально не понимаешь структуру html-документа?

Не по теме:

Впрочем, это нужно было писать утвердительно

1
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,753
17.08.2022, 13:43  [ТС]
Сейчас понял. Если правильно подумал, это значит, что далее в документе больше нет конструкции с тегом html.
0
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
17.08.2022, 13:46
Цитата Сообщение от supmener Посмотреть сообщение
Если правильно подумал
Нет, неправильно
0
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,753
17.08.2022, 14:30  [ТС]
Почему не правильно, если закрывающий тег пропускается?

Ещё не понял, что делать, чтобы писалось на диск:
Python
1
2
3
4
5
6
7
soup1 = soup.find_all('table')
#print(soup1[2])
#print(sys.getsizeof(soup1)) # 136
 
f = open('text.txt', 'w')
f.write(soup1)
f.close()
Code
1
2
    f.write(soup1)
TypeError: write() argument must be str, not ResultSet
Добавлено через 4 минуты
Или Вы имели в виду, что в своем ответе не упомянул вложенность или её отсутствие?
0
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
17.08.2022, 14:32
Цитата Сообщение от supmener Посмотреть сообщение
TypeError: write() argument must be str, not ResultSet
Перевожу : "изучите основы, в конце-то концов!!!"
1
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,753
17.08.2022, 14:59  [ТС]
str это тип строки. ResultSet переводится "Набор результатов".
Python
1
2
print(type(soup1))
#<class 'bs4.element.ResultSet'>
Как говорят в видео, если правильно запомнил, это объект класса BeautifulSoup. Или по фрагменту кода не понятно, как поправить и надо показать полностью листинг?
0
Эксперт PythonЭксперт Java
19530 / 11067 / 2931
Регистрация: 21.10.2017
Сообщений: 23,294
17.08.2022, 15:04
Цитата Сообщение от supmener Посмотреть сообщение
Или по фрагменту кода не понятно, как поправить
По фрагменту кода, равно как и по тексту ошибки все ясно как Божий день. Для тех, кто знает основы, разумеется. И поправить это элементарно. Причем несколькими способами. Настолько элементарно, что аж смешно

Добавлено через 46 секунд
При том, что для исправления данной ошибки можно не знать что такое bs от слова совсем
1
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,753
17.08.2022, 20:08  [ТС]
Теперь понял, в чем был неправ, ориентируясь на этот текст:
Элемент nextSibling объекта <BODY> Tag равен None, поскольку в нем больше нет вложенных по отношению к объекту <HTML> Tag элементов.
Только не понимаю пока, для чего и как это может быть практически нужно.
0
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,753
18.08.2022, 06:33  [ТС]
Цитата Сообщение от iSmokeJC Посмотреть сообщение
По фрагменту кода, равно как и по тексту ошибки все ясно как
Очень хорошо, что Вам ясно и понятно.
Python
1
soup2 = str(soup1[2])
Добавлено через 1 час 51 минуту
Цитата Сообщение от supmener Посмотреть сообщение
Элемент nextSibling объекта <BODY> Tag равен None, поскольку в нем больше нет вложенных по отношению к объекту <HTML> Tag элементов.
Только не понимаю пока, для чего и как это может быть практически нужно.
Возможно это как то связано с необходимостью проверки существования удаленного ранее тега.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
from bs4 import BeautifulSoup
soup = BeautifulSoup("<a1></a1><a><b>Amazing content<c><d></a><a2></a2>")
soup.a1.nextSibling
# <a><b>Amazing content<c><d></d></c></b></a>
soup.a2.previousSibling
# <a><b>Amazing content<c><d></d></c></b></a>
 
subtree = soup.a
subtree.extract()
 
print(soup)
# <a1></a1><a2></a2>
soup.a1.nextSibling
# <a2></a2>
soup.a2.previousSibling
# <a1></a1>
 
soup.a1.nextSibling
# <a2></a2>
soup.a2.previousSibling
# <a1></a1>
subtree.previousSibling == None
# True
subtree.parent == None
# True
0
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,753
18.08.2022, 21:17  [ТС]
Удалил. Нашел ошибку.
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
18.08.2022, 21:23
Python
1
2
3
4
5
6
7
8
9
10
11
import requests
from bs4 import BeautifulSoup
 
req = requests.get('https://www.mobileshop.eu/apple/tablets')
soup = BeautifulSoup(req.text, 'html.parser')
items = soup.select('.product-module')
 
for i in items:
    print(i.select_one('.product-name').text.strip())
    print(i.select_one('.price').text.strip())
    print()
Добавлено через 51 секунду
но да, break не помогал ни разу получить больше результатов
1
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,753
18.08.2022, 22:34  [ТС]
А не знаете, почему в int не изменяется?
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import requests
from bs4 import BeautifulSoup
 
 
url = "https://www.mobileshop.eu/apple/tablets/"
 
cookie = {"cookie": "saved_currency=EUR; saved_lang=1; GdprAccept=true"}
 
response = requests.get(url, cookies=cookie)
 
html = response.text
 
soup = BeautifulSoup(html, "html.parser")
 
conteiner = soup.find_all("div", {"class":"product-module"})
print(len(conteiner)) # 12
 
for product in conteiner:
    name = product.find_all("a")[1].text
    print(name)
    price = product.find("div", class_="price").text[:-2] # удаляем пробел и знак евро в конце # 652.00 €
    print(int(price)) # Удаляем нули на конце 664.00
Code
1
2
3
4
5
6
12
Apple iPad Pro 12.9 (2021) WiFi 128GB 8GB RAM Silver
Traceback (most recent call last):
  File "путь удалил\main_1.py", line 29, in <module>
    print(int(price)) # Удаляем нули на конце 664.00
ValueError: invalid literal for int() with base 10: '\n1124.00\xa0'
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
19.08.2022, 00:05
Цитата Сообщение от supmener Посмотреть сообщение
ValueError: invalid literal for int() with base 10: '\n1124.00\xa0'
мне кажется, ошибка имеет в себе ответ на Ваш вопрос.

питон не знает, как превратить '\n1124.00\xa0' в число.

Добавлено через 1 минуту
попробуйте
Python
1
print(int(price.strip()))
0
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,753
19.08.2022, 05:58  [ТС]
Python
1
2
    price = product.find("div", class_="price").text[:-2] # удаляем пробел и знак евро в конце # 652.00 €
    print(int(price.strip()))
Code
1
2
    print(int(price.strip()))
ValueError: invalid literal for int() with base 10: '1124.00'
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
19.08.2022, 05:59
float()?
1
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,753
19.08.2022, 06:05  [ТС]
Так тоже не работает
Python
1
print(int(str(price.strip())))
Вот так получилось
Python
1
print(int(eval(price.strip())))
Добавлено через 1 минуту
Так тоже работает
Python
1
    print(int(float(price.strip())))
0
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,753
01.01.2023, 17:34  [ТС]
Сейчас изучаю документацию https://www.crummy.com/softwar... bs4ru.html

Python
1
2
3
4
5
from bs4 import BeautifulSoup
soup = BeautifulSoup('<b id = "boldest">', 'html.parser')
tag = soup.b
t = soup.tag['id']
print(t)
Code
1
2
3
4
Traceback (most recent call last):
  File "l:\Python\parsing\1 BeautifulSoup\Документация Beautiful Soup, русский перевод\a5 тэг с id.py", line 4, in <module>
    t = soup.tag['id']
TypeError: 'NoneType' object is not subscriptable
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b
type(tag)
# <class 'bs4.element.Tag'>
У объекта Tag (далее «тег») много атрибутов и методов, и я расскажу о большинстве из них в разделах Навигация по дереву и Поиск по дереву. На данный момент наиболее важными особенностями тега являются его имя и атрибуты.

Имя
У каждого тега есть имя, доступное как .name:

tag.name
# u'b'
Если вы измените имя тега, это изменение будет отражено в любой HTML- разметке, созданной Beautiful Soup:

tag.name = "blockquote"
tag
# <blockquote class="boldest">Extremely bold</blockquote>
Атрибуты
У тега может быть любое количество атрибутов. Тег <b id = "boldest"> имеет атрибут “id”, значение которого равно “boldest”. Вы можете получить доступ к атрибутам тега, обращаясь с тегом как со словарем:

tag['id']
# u'boldest'
0
Просто Лис
Эксперт Python
 Аватар для Рыжий Лис
5973 / 3735 / 1099
Регистрация: 17.05.2012
Сообщений: 10,791
Записей в блоге: 9
01.01.2023, 18:17
3 строка - неиспользуемая переменная
4 строка - сам догадаешься?
0
 Аватар для supmener
87 / 95 / 15
Регистрация: 26.06.2013
Сообщений: 4,753
01.01.2023, 22:24  [ТС]
Заработало
Python
1
2
3
4
from bs4 import BeautifulSoup
soup = BeautifulSoup('<b id = "boldest">', 'html.parser')
tag = soup.b 
print(tag['id']) # boldest
Добавлено через 2 часа 10 минут
Там написано:
Вряд ли вам это пригодится, но если все-таки будет нужно, руководствуйтесь значениями по умолчанию. Они реализуют правила, описанные в спецификации HTML:

from bs4.builder import builder_registry
builder_registry.lookup('html').DEFAULT_ CDATA_LIST_ATTRIBUTES
В каком случае это может пригодиться?

Добавлено через 1 минуту
Python
1
print(builder_registry.lookup('html').DEFAULT_CDATA_LIST_ATTRIBUTES)
принт выводит:
Code
1
{'*': ['class', 'accesskey', 'dropzone'], 'a': ['rel', 'rev'], 'link': ['rel', 'rev'], 'td': ['headers'], 'th': ['headers'], 'form': ['accept-charset'], 'object': ['archive'], 'area': ['rel'], 'icon': ['sizes'], 'iframe': ['sandbox'], 'output': ['for']}
Добавлено через 1 час 8 минут
"""
NavigableString похожа на строку Unicode в Python, не считая того, что она также поддерживает некоторые функции,
описанные в разделах Навигация по дереву и Поиск по дереву.
Вы можете конвертировать NavigableString в строку Unicode с помощью unicode():
"""

Python
1
2
3
4
5
6
from bs4 import BeautifulSoup
 
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', 'html.parser')
tag = soup.b
print(tag.string) 
unicode_string = unicode(tag.string)
Слово unicode подчеркивает ошибкой
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
01.01.2023, 22:24
Помогаю со студенческими работами здесь

Как убрать soup = BeautifulSoup (html) из кода?
Приветствую всех, только недавно начал изучать Python, дали задание: сделать парс расписания нашей группы в универе. Пользовался Beautiful...

Как выделить текст из тега через BeautifulSoup?
Написал такой скрипт: #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib2 from BeautifulSoup import BeautifulSoup ...

Как получить определенную ячейку из таблицы с библ. beautifulsoup?
Столкнулся с проблемой при парсере сайта и не могу получить данную с табличке отдельно. Перепробовал всякое, но не могу сделать. Возможно...

Как вытащить значения из таблицы HTML используя BeautifulSoup
Здравствуйте! Я пытаюсь вытащить все значения из таблице, которые находятся в левой колонке с помощью beautifulSoup. Они находятся в теге...

Как Парсить несколько одинаковых XML тегов? (BeautifulSoup)
Имеется XML по типу: &lt;players&gt; &lt;player&gt; &lt;level&gt;5&lt;/level&gt; &lt;kills&gt;5&lt;/kills&gt; &lt;deaths&gt;5&lt;/deaths&gt; &lt;assists&gt;7&lt;/assists&gt; ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Ответ Создать тему
Новые блоги и статьи
Установка Emscripten SDK (emsdk) и CMake на Windows для сборки C и C++ приложений в WebAssembly (Wasm)
8Observer8 30.01.2026
Чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. Система контроля версиями Git. . .
Подключение Box2D v3 к SDL3 для Android: физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
Влияние грибов на сукцессию
anaschu 26.01.2026
Бифуркационные изменения массы гриба происходят тогда, когда мы уменьшаем массу компоста в 10 раз, а скорость прироста биомассы уменьшаем в три раза. Скорость прироста биомассы может уменьшаться за. . .
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip" Извлеките архив и вы увидите. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru