Парсинг сайта

@anerev · Регистрация: 09.11.2019

Студворк — интернет-сервис помощи студентам

У меня есть парсер цен AliExpress, он на селениуме, проблема в том что он медленный, хотелось более быстрой работы, bs4 не видит нужные элементы (или я тупой( ), вообщем можно как-то побыстрее парсить нужное значение ?

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
    chrome_options = Options()
 
    chrome_options.add_argument("--headless")
 
    driver = webdriver.Chrome(options=chrome_options)
 
    driver.get(link)
 
    price = driver.find_element_by_class_name("product-price-value") 
 
    price1 = price.text
 
    driver.quit()

@supmener · 13.08.2020, 05:59

Этот пример не скачивает картинки. Форум испортил ссылку в коде.

Code
1
2
3
4
images Not Found
------------------
(program exited with code: 1)
Для продолжения нажмите любую клавишу . . .

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
# standard library
import sys
from pathlib import Path
from urllib.parse import urljoin
 
# third-party
import requests
from lxml import html
 
response = requests.get('http://**********/')
parsed_body = html.fromstring(response.text)
 
# Парсим ссылки с картинками при помощи XPath
images = parsed_body.xpath('//img/@src')
if not images:
    sys.exit("images Not Found")
 
# Конвертирование всех относительных ссылок в абсолютные
images = [
    urljoin(response.url, url)
    for url in images
]
print('Found {} images'.format(len(images)))
 
# Скачиваем только первые 10
for url in images[0:10]:
    r = requests.get(url)
    target = Path(
        'downloaded_images/{}'.format(
            url.split('/')[-1]  # file name from URL
        )
    )
    target.write_bytes(r.content)

@Garry Galler · 13.08.2020, 15:09

Сообщение от supmener

Этот пример не скачивает картинки.

Или их там нет.
Или неверно указан xpath.
Или ... еще какая-то неведомая хрень.

На такие вопросы нельзя ответить без возможности запустить код.
Учись дебажить свой код. Ты содержимое response.text опробовал глазами посмотреть? Нет.

Добавлено через 2 минуты

Сообщение от supmener

# Конвертирование всех относительных ссылок в абсолютные

В lxml для этого есть специальная функция make_links_absolute.

@supmener · 13.08.2020, 16:55

Может быть у меня только не работает в конфигурации операционной системы и Пайтона. Вы бы запустили этот код, а то не понятно.

@Garry Galler · 13.08.2020, 17:09

Сообщение от Garry Galler

На такие вопросы нельзя ответить без возможности запустить код

КАк его запущу?????
Мне что, подставить туда свой url?
Ну дак у меня все сработает. Потому что я все сделаю правильно.

@supmener · 13.08.2020, 18:10

Можно перейти по вашей ссылке на страницу урока и код скопировать оттуда.

@Garry Galler · 13.08.2020, 18:36

Сообщение от supmener

Можно перейти по вашей ссылке на страницу урока и код скопировать оттуда.

url какой? Тот же самый?
Ну тогда все просто: там нет картинок. Они подгружаются динамически. http-клиенты типа requests не выполняют javascript для полного рендеринга страницы. Они возвращают только то, что отдает сайт при запросе по данному url. А картинки грузятся в фоновом режиме через AJAX запросы (совсем по другим url), которые скрипты выполняют в браузере после загрузки страницы.

Хочешь протестировать этот скрипт - найди сайт, где картинки грузятся сразу же.

@supmener · 13.08.2020, 19:30

Может Scrapy в таких случаях надо использовать?

Добавлено через 30 секунд
url тот же самый.

@Garry Galler · 13.08.2020, 19:34

Сообщение от supmener

Может Scrapy в таких случаях надо использовать?

Нет. Scrapy это просто граббер.
Для рендеринга динамики используют selenium (+ драйвер любого браузера). Или еще есть такая штука как splash (Splash is a javascript rendering service with an HTTP API. It's a lightweight browser with an HTTP API, implemented in Python 3 using Twisted and QT5.).

@supmener · 13.08.2020, 19:46

А в каких случаях надо задействовать этот код, как в следующем примере?

Code
1
2
# standard library
from io import StringIO

@supmener · 13.09.2020, 08:32

А если надо будет спарсить подгружаемое содержимое, как в комментариях на Youtube?

Новые блоги и статьи Все статьи Все блоги /
Remote Connection Manager DevAlt 21.06.2026 Написал для себя небольшую прилагу: https:/ / github. com/ altbodhi/ ReConMan По итогу пришел к мысли, что DU не дружат с существующими технологиями. От сериализации до отображения в реляционную. . .	Администрация Хабра удаляет новые энрегоэфективные алгоритмы, которые не западной школы кода, и вовсе никак не сгенерировавны. Hrethgir 20.06.2026 Делается это, как замечено, при правках - при объявлении концептуальных отличий в алгоримах. Делается это, по линейке событий - после дополнения публикации основными отличиями от основных западных. . .	Процесс ориентированная диалектика (не новость - просто системное обновление, философия). Hrethgir 20.06.2026 Однажды один участник в своём блоге, на этом форуме, сделал запись "О языках замолвите слово". Понимая, что язык - важная вещь, я решил хорошо подумать, прежде чем сказать, и сказал то, что вы видите. . .	Контроль уникальности строк в табличной части документа Maks 18.06.2026 Алгоритм из решения ниже разработан на примере нетипового документа "ПланированиеСпецтехники" с табличной частью "НаличиеОборудования", разработанного в КА2. Задача: контроль уникальности строк в. . .
Клиент Uhbif79 18.06.2026 Здесь простой клиент для работы с сервером.	Сервер Uhbif79 18.06.2026 Выкладываю простейший сервер.	Дефенестрация kumehtar 18.06.2026 Узнал интересное слово. Дефенестрация. Это когда ты выбрасываешь кого-либо или что-либо из окна. Возьму на вооружение)))	Дихотомия добра и зла kumehtar 18.06.2026 Как Дзен-буддисты говорят о добре и зле: не нужно воевать против зла, нужно воевать против невежества. Тогда добро станет ествественным, и поэтому вечным. Но дело в том, что невежество всё время. . .

@supmener 87 / 95 / 15 Регистрация: 26.06.2013 Сообщений: 4,755
	13.08.2020, 16:55
	Может быть у меня только не работает в конфигурации операционной системы и Пайтона. Вы бы запустили этот код, а то не понятно. 0

@supmener 87 / 95 / 15 Регистрация: 26.06.2013 Сообщений: 4,755
	13.08.2020, 18:10
	Можно перейти по вашей ссылке на страницу урока и код скопировать оттуда. 0

@supmener 87 / 95 / 15 Регистрация: 26.06.2013 Сообщений: 4,755
	13.08.2020, 19:30
	Может Scrapy в таких случаях надо использовать? Добавлено через 30 секунд url тот же самый. 0

@supmener 87 / 95 / 15 Регистрация: 26.06.2013 Сообщений: 4,755
	13.09.2020, 08:32
	А если надо будет спарсить подгружаемое содержимое, как в комментариях на Youtube? 0