Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.73/11: Рейтинг темы: голосов - 11, средняя оценка - 4.73
9 / 0 / 0
Регистрация: 16.02.2019
Сообщений: 67

Парсинг html страницы не работает

10.09.2019, 10:31. Показов 2110. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
https://www.youtube.com/watch?... x=2&t=696s
в этом видео парень рассказывает как спарсить страницу картинок и выдрать себе ссылки на картинки
это его код:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import requests
from bs4 import BeautifulSoup as bs
import random
import json
import lxml.html
 
ua = "Mozilla / 5.0 (Windows NT 10.0; Win64; x64) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / 58.0.3029.110 Safari / 537.36"
 
headers = {"User-Agent": random.choice(ua)}
 
r = requests.get("https://www.google.ru/search?tbm=isch&q=яблоко", headers=headers)
 
html = r.content
 
soup = bs(html, "lxml")
 
images = soup.find_all("div", {"class": "rg_meta notranslate"})
 
images  = [i.text for i in images]
images = [json.loads(i) for i in images]
но у меня ничего не выводит кроме:
[]

Process finished with exit code 0

soup - выводит html текст а вот уже images = soup.find_all("div", {"class": "rg_meta notranslate"}) - ничего не выводит
я уже пересмотрел кучу статей и везде получается что-то найти и вывести используя find_all - у меня же ничего не получается а почему не знаю
помогите пожалуйста понять в чём дело
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
10.09.2019, 10:31
Ответы с готовыми решениями:

Парсинг html страницы
Здравствуйте. Есть видео где мужик парсит html страницу и далее заносит все ссылки которые нашёл:...

Парсинг html страницы
хочу сделать автоматическое скачивание файлов по ключевому слову на картинке есть кнопка которая выдаёт ссылку на скачку(первая...

Парсинг html страницы
Лаборатория 1. Осуществить ввод адреса Интернет-страницы. 2. Осуществить поиск всех изображений на странице. 3. Удалить дубликаты. ...

4
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7391 / 4818 / 1246
Регистрация: 30.03.2015
Сообщений: 13,687
Записей в блоге: 29
10.09.2019, 13:29
Dobrodeetel, тот, кто по видео учися уже обречен, так что какой смысл? Ну покажем проблему, через 5 минут у тебя вторая вылезет, читать ведь не хочется, особенно документацию, правда?
Например , объясни -это что ? я знаю, что делает эта функция, объясни -ЗАЧЕМ?
Цитата Сообщение от Dobrodeetel Посмотреть сообщение
ua = "Mozilla / 5.0 (Windows NT 10.0; Win64; x64) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / 58.0.3029.110 Safari / 537.36"
headers = {"User-Agent": random.choice(ua)}


Цитата Сообщение от Dobrodeetel Посмотреть сообщение
soup - выводит html текст а вот уже images = soup.find_all("div", {"class": "rg_meta notranslate"}) - ничего не выводит
открываем документацию БС4 и начинаем неистово читать

Цитата Сообщение от Dobrodeetel Посмотреть сообщение
я уже пересмотрел кучу статей и везде получается что-то найти и вывести используя find_all - у меня же ничего не получается а почему не знаю
потому что не статьи надо читать, документацию по своим инструментам

вот вариант с lxml
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
import json
 
from lxml import html
import requests
 
ua = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"
 
headers = {"User-Agent": ua}
r = requests.get("https://www.google.ru/search?tbm=isch&q=яблоко", headers=headers)
tree = html.fromstring(r.content)
for e in tree.xpath('//div[@class="rg_meta notranslate"]'):
    json_text = json.loads(e.text)
    print(json_text['ou'])
0
10.09.2019, 14:00

Не по теме:

Welemir1, ты случайно не знаешь, можно ли отменить отзыв, хотел кинуть ему негативный, а кинул позитивный. (Причина: создание одной и той же темы, ожидая получить иной ответ.)

0
10.09.2019, 14:06

Не по теме:

DmFat, :) внимательнее надо, напиши модераторам, например jSmoke

0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
11.09.2019, 13:20
это что ?
Свободная касса! рандомный браузер!
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
>>> ua = "Mozilla / 5.0 (Windows NT 10.0; Win64; x64) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / 58.0.3029.110 Safari / 537.36"
>>> import random
>>> random.choice(ua)
' '
>>> random.choice(ua)
'/'
>>> random.choice(ua)
'i'
>>> random.choice(ua)
'x'
>>> random.choice(ua)
'T'
>>> random.choice(ua)
'i'
>>> random.choice(ua)
'G'
>>>
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
11.09.2019, 13:20
Помогаю со студенческими работами здесь

Парсинг html страницы картинок
Здравствуйте. Есть код: import requests from bs4 import BeautifulSoup as bs import random import lxml.html r =...

Парсинг залогиненной html страницы
есть код import requests from json import loads from bs4 import BeautifulSoup import re from selenium import webdriver ...

Парсинг html страницы с многопоточностью
Лаборатория 1. Осуществить ввод адреса Интернет-страницы. 2. Осуществить поиск всех изображений на странице. 3. Удалить дубликаты. ...

Парсинг HTML, генерация новой HTML страницы
Добрый день. Пишу небольшое расширение для Firefox, используя JS. Общая задача выглядит так: Необходимо сгенерировать...

Парсинг страницы html
Есть некая html страница. Я получаю значение одного из атрибутов какого-то элемента (id,name,class) вне зависимости это div, p или table....


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Символьное дифференцирование
igorrr37 13.02.2026
/ * Логарифм записывается как: (x-2)log(x^2+2) - означает логарифм (x^2+2) по основанию (x-2). Унарный минус обозначается как ! */ #include <iostream> #include <stack> #include <cctype>. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru