Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.73/11: Рейтинг темы: голосов - 11, средняя оценка - 4.73
9 / 0 / 0
Регистрация: 16.02.2019
Сообщений: 67

Парсинг html страницы не работает

10.09.2019, 10:31. Показов 2139. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
https://www.youtube.com/watch?... x=2&t=696s
в этом видео парень рассказывает как спарсить страницу картинок и выдрать себе ссылки на картинки
это его код:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import requests
from bs4 import BeautifulSoup as bs
import random
import json
import lxml.html
 
ua = "Mozilla / 5.0 (Windows NT 10.0; Win64; x64) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / 58.0.3029.110 Safari / 537.36"
 
headers = {"User-Agent": random.choice(ua)}
 
r = requests.get("https://www.google.ru/search?tbm=isch&q=яблоко", headers=headers)
 
html = r.content
 
soup = bs(html, "lxml")
 
images = soup.find_all("div", {"class": "rg_meta notranslate"})
 
images  = [i.text for i in images]
images = [json.loads(i) for i in images]
но у меня ничего не выводит кроме:
[]

Process finished with exit code 0

soup - выводит html текст а вот уже images = soup.find_all("div", {"class": "rg_meta notranslate"}) - ничего не выводит
я уже пересмотрел кучу статей и везде получается что-то найти и вывести используя find_all - у меня же ничего не получается а почему не знаю
помогите пожалуйста понять в чём дело
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
10.09.2019, 10:31
Ответы с готовыми решениями:

Парсинг html страницы
Здравствуйте. Есть видео где мужик парсит html страницу и далее заносит все ссылки которые нашёл:...

Парсинг html страницы
хочу сделать автоматическое скачивание файлов по ключевому слову на картинке есть кнопка которая выдаёт ссылку на скачку(первая...

Парсинг html страницы
Лаборатория 1. Осуществить ввод адреса Интернет-страницы. 2. Осуществить поиск всех изображений на странице. 3. Удалить дубликаты. ...

4
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,694
Записей в блоге: 29
10.09.2019, 13:29
Dobrodeetel, тот, кто по видео учися уже обречен, так что какой смысл? Ну покажем проблему, через 5 минут у тебя вторая вылезет, читать ведь не хочется, особенно документацию, правда?
Например , объясни -это что ? я знаю, что делает эта функция, объясни -ЗАЧЕМ?
Цитата Сообщение от Dobrodeetel Посмотреть сообщение
ua = "Mozilla / 5.0 (Windows NT 10.0; Win64; x64) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / 58.0.3029.110 Safari / 537.36"
headers = {"User-Agent": random.choice(ua)}


Цитата Сообщение от Dobrodeetel Посмотреть сообщение
soup - выводит html текст а вот уже images = soup.find_all("div", {"class": "rg_meta notranslate"}) - ничего не выводит
открываем документацию БС4 и начинаем неистово читать

Цитата Сообщение от Dobrodeetel Посмотреть сообщение
я уже пересмотрел кучу статей и везде получается что-то найти и вывести используя find_all - у меня же ничего не получается а почему не знаю
потому что не статьи надо читать, документацию по своим инструментам

вот вариант с lxml
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
import json
 
from lxml import html
import requests
 
ua = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"
 
headers = {"User-Agent": ua}
r = requests.get("https://www.google.ru/search?tbm=isch&q=яблоко", headers=headers)
tree = html.fromstring(r.content)
for e in tree.xpath('//div[@class="rg_meta notranslate"]'):
    json_text = json.loads(e.text)
    print(json_text['ou'])
0
10.09.2019, 14:00

Не по теме:

Welemir1, ты случайно не знаешь, можно ли отменить отзыв, хотел кинуть ему негативный, а кинул позитивный. (Причина: создание одной и той же темы, ожидая получить иной ответ.)

0
10.09.2019, 14:06

Не по теме:

DmFat, :) внимательнее надо, напиши модераторам, например jSmoke

0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
11.09.2019, 13:20
это что ?
Свободная касса! рандомный браузер!
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
>>> ua = "Mozilla / 5.0 (Windows NT 10.0; Win64; x64) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / 58.0.3029.110 Safari / 537.36"
>>> import random
>>> random.choice(ua)
' '
>>> random.choice(ua)
'/'
>>> random.choice(ua)
'i'
>>> random.choice(ua)
'x'
>>> random.choice(ua)
'T'
>>> random.choice(ua)
'i'
>>> random.choice(ua)
'G'
>>>
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
11.09.2019, 13:20
Помогаю со студенческими работами здесь

Парсинг html страницы картинок
Здравствуйте. Есть код: import requests from bs4 import BeautifulSoup as bs import random import lxml.html r =...

Парсинг залогиненной html страницы
есть код import requests from json import loads from bs4 import BeautifulSoup import re from selenium import webdriver ...

Парсинг html страницы с многопоточностью
Лаборатория 1. Осуществить ввод адреса Интернет-страницы. 2. Осуществить поиск всех изображений на странице. 3. Удалить дубликаты. ...

Парсинг HTML, генерация новой HTML страницы
Добрый день. Пишу небольшое расширение для Firefox, используя JS. Общая задача выглядит так: Необходимо сгенерировать...

Парсинг страницы html
Есть некая html страница. Я получаю значение одного из атрибутов какого-то элемента (id,name,class) вне зависимости это div, p или table....


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Вывод диалогового окна перед закрытием, если документ не проведён
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .
Программный контроль заполнения реквизита табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита "ПричинаСписания". . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Программное заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru