Парсинг сайта

@anerev · Регистрация: 09.11.2019

Студворк — интернет-сервис помощи студентам

У меня есть парсер цен AliExpress, он на селениуме, проблема в том что он медленный, хотелось более быстрой работы, bs4 не видит нужные элементы (или я тупой( ), вообщем можно как-то побыстрее парсить нужное значение ?

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
    chrome_options = Options()
 
    chrome_options.add_argument("--headless")
 
    driver = webdriver.Chrome(options=chrome_options)
 
    driver.get(link)
 
    price = driver.find_element_by_class_name("product-price-value") 
 
    price1 = price.text
 
    driver.quit()

@supmener · 13.08.2020, 05:59

Этот пример не скачивает картинки. Форум испортил ссылку в коде.

Code
1
2
3
4
images Not Found
------------------
(program exited with code: 1)
Для продолжения нажмите любую клавишу . . .

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
# standard library
import sys
from pathlib import Path
from urllib.parse import urljoin
 
# third-party
import requests
from lxml import html
 
response = requests.get('http://**********/')
parsed_body = html.fromstring(response.text)
 
# Парсим ссылки с картинками при помощи XPath
images = parsed_body.xpath('//img/@src')
if not images:
    sys.exit("images Not Found")
 
# Конвертирование всех относительных ссылок в абсолютные
images = [
    urljoin(response.url, url)
    for url in images
]
print('Found {} images'.format(len(images)))
 
# Скачиваем только первые 10
for url in images[0:10]:
    r = requests.get(url)
    target = Path(
        'downloaded_images/{}'.format(
            url.split('/')[-1]  # file name from URL
        )
    )
    target.write_bytes(r.content)

@Garry Galler · 13.08.2020, 15:09

Сообщение от supmener

Этот пример не скачивает картинки.

Или их там нет.
Или неверно указан xpath.
Или ... еще какая-то неведомая хрень.

На такие вопросы нельзя ответить без возможности запустить код.
Учись дебажить свой код. Ты содержимое response.text опробовал глазами посмотреть? Нет.

Добавлено через 2 минуты

Сообщение от supmener

# Конвертирование всех относительных ссылок в абсолютные

В lxml для этого есть специальная функция make_links_absolute.

@supmener · 13.08.2020, 16:55

Может быть у меня только не работает в конфигурации операционной системы и Пайтона. Вы бы запустили этот код, а то не понятно.

@Garry Galler · 13.08.2020, 17:09

Сообщение от Garry Galler

На такие вопросы нельзя ответить без возможности запустить код

КАк его запущу?????
Мне что, подставить туда свой url?
Ну дак у меня все сработает. Потому что я все сделаю правильно.

@supmener · 13.08.2020, 18:10

Можно перейти по вашей ссылке на страницу урока и код скопировать оттуда.

@Garry Galler · 13.08.2020, 18:36

Сообщение от supmener

Можно перейти по вашей ссылке на страницу урока и код скопировать оттуда.

url какой? Тот же самый?
Ну тогда все просто: там нет картинок. Они подгружаются динамически. http-клиенты типа requests не выполняют javascript для полного рендеринга страницы. Они возвращают только то, что отдает сайт при запросе по данному url. А картинки грузятся в фоновом режиме через AJAX запросы (совсем по другим url), которые скрипты выполняют в браузере после загрузки страницы.

Хочешь протестировать этот скрипт - найди сайт, где картинки грузятся сразу же.

@supmener · 13.08.2020, 19:30

Может Scrapy в таких случаях надо использовать?

Добавлено через 30 секунд
url тот же самый.

@Garry Galler · 13.08.2020, 19:34

Сообщение от supmener

Может Scrapy в таких случаях надо использовать?

Нет. Scrapy это просто граббер.
Для рендеринга динамики используют selenium (+ драйвер любого браузера). Или еще есть такая штука как splash (Splash is a javascript rendering service with an HTTP API. It's a lightweight browser with an HTTP API, implemented in Python 3 using Twisted and QT5.).

@supmener · 13.08.2020, 19:46

А в каких случаях надо задействовать этот код, как в следующем примере?

Code
1
2
# standard library
from io import StringIO

@supmener · 13.09.2020, 08:32

А если надо будет спарсить подгружаемое содержимое, как в комментариях на Youtube?

Новые блоги и статьи Все статьи Все блоги /
сукцессия 6. Питон реализация энилоджиковской модели, картинка про Центральную часть будущей модели anaschu 26.06.2026 Етить. ИИ мне на основе моего старого файла R создал вот эту вот хмерь на пайтоне. Это уже новая модель, модель сукцессии грибной. потоки фосфора, азота. Углерода. 5 видов организмов. Я даже. . .	Как замкнутый ядерный цикл решит проблему недостатки фосфора? Био миграция фосфора со дна океана anaschu 26.06.2026 Биологический лифт: Концепция подъема фосфора со дна океана с помощью ЗЯТЦ Предлагаю на обсуждение альтернативу тяжелому промышленному бурению океанического дна. Вместо сложной инженерии мы можем. . .	сукцессия 5 anaschu 26.06.2026 ПЛАН РАЗРАБОТКИ математической модели сукцессии микоризных систем Переход AM → EcM (Endo + ErM) · Шумилов А. С. · ИФХиБПП РАН · Пущино · 2026 . . .	сукцессия 4 anaschu 25.06.2026 Более детализированный план разработки План доработки модели динамики микоризных симбиозов (EcM с гистерезисом) Цель: Реализовать логику переключения между эрикоидным (ErM) и эктомикоризным. . .
сукцессия 3 anaschu 25.06.2026 Примерный план работ по модели	сукцессия 2 anaschu 25.06.2026 параметризировочная калибровочная таблица будущей модели	Многофункциональное здание: как одно здание порождает конфликты требований, которые никто не планировал (мат мет мод 29) anaschu 23.06.2026 Многофункциональное здание: как одно здание порождает конфликты требований, которые никто не планировал Материалы для обсуждения с МГСУ · 2026 Рисунки внутри приложенного ворд файла. Что за. . .	28. Конкретное развертывание плана номер 1 из поста номер 27 anaschu 22.06.2026 Можно ли из модели получить конкретные строительные требования? Честно — напрямую из текущей модели такие ответы не получить. Но цепочка логики есть, и она не такая длинная. Где разрыв . . .

@supmener 87 / 95 / 15 Регистрация: 26.06.2013 Сообщений: 4,755
	13.08.2020, 16:55
	Может быть у меня только не работает в конфигурации операционной системы и Пайтона. Вы бы запустили этот код, а то не понятно. 0

@supmener 87 / 95 / 15 Регистрация: 26.06.2013 Сообщений: 4,755
	13.08.2020, 18:10
	Можно перейти по вашей ссылке на страницу урока и код скопировать оттуда. 0

@supmener 87 / 95 / 15 Регистрация: 26.06.2013 Сообщений: 4,755
	13.08.2020, 19:30
	Может Scrapy в таких случаях надо использовать? Добавлено через 30 секунд url тот же самый. 0

@supmener 87 / 95 / 15 Регистрация: 26.06.2013 Сообщений: 4,755
	13.09.2020, 08:32
	А если надо будет спарсить подгружаемое содержимое, как в комментариях на Youtube? 0