Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.96/25: Рейтинг темы: голосов - 25, средняя оценка - 4.96
2 / 2 / 1
Регистрация: 01.06.2016
Сообщений: 80

Извлечение заголовков в BeautifulSoup

14.02.2017, 18:35. Показов 4809. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Подскажите, почему не извлекается содержимое тэгов h3?
Python
1
2
3
4
5
6
7
8
9
import requests
from bs4 import BeautifulSoup as bs
 
r = requests.get("https://www.google.by/?gws_rd=ssl#newwindow=1&q=%D0%BB%D0%B5%D1%82%D0%BE")
print(r)
text = r.text
soup = bs(text, "html.parser")
h3 = soup("h3")
print(h3)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
14.02.2017, 18:35
Ответы с готовыми решениями:

Извлечение заголовков из CSV файлов
Доброго времени суток! Столкнулся с задачей - необходимо извлечь информацию из CSV файла вместе с заголовками. Я могу лишь получить...

Извлечение чисел из строки (частичное извлечение)
Добрый день! Прошу помочь облегчить жизнь работяге офисного планктона (т.е. мне) :D Неотъемлемой частью моей работы является...

Beautifulsoup
Добрый вечер! Не получается с beautifulsoup получить данные из html'а. Подскажите,как можно получить текст пятого td в tr? ...

5
11 / 11 / 7
Регистрация: 09.02.2017
Сообщений: 20
14.02.2017, 19:12
Лучший ответ Сообщение было отмечено Franek как решение

Решение

Попробуй изменить ссылку на http://www.google.by/search?q=... 1%82%D0%BE
почитай тут более подробнее https://automatetheboringstuff.com/chapter11/
1
2 / 2 / 1
Регистрация: 01.06.2016
Сообщений: 80
18.02.2017, 15:50  [ТС]
user20177, я так понял эти гугловские ссылки в моем и твоем сообщении отличаются тем, что в моей содержится дополнительный текст для адаптации Гугла к запросам пользователей (так написано в книге, на которую ссылка в сообщении выше). А как сделать чтобы ссылки (h3 заголовки) были рабочими?

Добавлено через 8 минут
Чтобы извлекалось содержимое h3 тэгов?
0
11 / 11 / 7
Регистрация: 09.02.2017
Сообщений: 20
18.02.2017, 19:55
посмотри этот код
Python
1
2
3
4
5
6
7
8
9
10
11
import requests
from bs4 import BeautifulSoup as bs
 
r = requests.get("http://www.google.by/search?q=%D0%BB%D0%B5%D1%82%D0%BE")
text = r.text
soup = bs(text, "html.parser")
items = soup.select('h3')
for item in items:
    a = item.find('a')
    print('{} - {}'.format(a.text, a.get('href')))
    print()
Добавлено через 26 минут
в начале каждой ссылки есть строка '/url?q=' можешь убрать методом lstrip a.get('href').lstrip('/url?q=')
1
2 / 2 / 1
Регистрация: 01.06.2016
Сообщений: 80
18.02.2017, 20:56  [ТС]
user20177, этот метод сработал, лишние символы убрались, но извлечённые ссылки почему-то не рабочие.
Например, при нажатии ссылки на Википедию отображается: "Запрашиваемое название страницы содержит недопустимые символы: «%D0»".
Python
1
2
3
4
5
6
7
8
9
10
11
import requests
from bs4 import BeautifulSoup as bs
 
r = requests.get("http://www.google.by/search?q=%D0%BB%D0%B5%D1%82%D0%BE")
text = r.text
soup = bs(text, "html.parser")
items = soup.select('h3')
for item in items:
    a = item.find('a')
    print('{} - {}'.format(a.text, a.get('href').lstrip('/url?q=')))
    print()
1
11 / 11 / 7
Регистрация: 09.02.2017
Сообщений: 20
18.02.2017, 21:55
Лучший ответ Сообщение было отмечено Franek как решение

Решение

Тоже заметил, в каждой ссылке есть &sa если убрать все что начинается &sa и затем всю эту ссылку закинуть urllib.request.unquote то ссылка срабатывает.

Python
1
2
3
url = a.get('href').lstrip('/url?q=')
sa = url.find('&sa')
print(urllib.request.unquote(url[0:sa]))
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
18.02.2017, 21:55
Помогаю со студенческими работами здесь

BeautifulSoup
import requests from bs4 import BeautifulSoup url =...

BeautifulSoup
Как с такого примера при помощи BeautifulSoup сделать словарь <ul class="flist"> <li><span>Год:</span> 2022</li> ...

BeautifulSoup
Здравствуйте. Только недавно начал учить python и столкнулся вот с такой проблемой, при попытке воспользоваться beautifulsoup ...

Установка BeautifulSoup
Не понимаю, я просто скачал этот суп и скопировал его в папку в Program files где у меня Python. Как я понимаю, спец. этот суп...

Beautifulsoup и pagination!
Есть код который скачивает музыку с сайта. Скрипт качает музыку только с одной страницы, но хотелось бы скачать сразу всю Mantra'y с сайта....


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Отображение реквизитов в документе по условию и контроль их заполнения
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеСпецтехники", разработанного в конфигурации КА2. Данный документ берёт данные из другого нетипового документа. . .
Фото всей Земли с борта корабля Orion миссии Artemis II
kumehtar 04.04.2026
Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .
Вывод диалогового окна перед закрытием, если документ не проведён
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .
Программный контроль заполнения реквизита табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита "ПричинаСписания". . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Программное заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru