Bs4 - не получается извлечь данные с сайта

@Krasti_Krabbs · Регистрация: 12.04.2021

Студворк — интернет-сервис помощи студентам

Пытался извлечь с сайта gumtree.com инфу с объявлений, название, цену
Ошибок в коде нет
Мне выдает пустой ответ :

C:\Users\artem\PycharmProjects\pars\venv \Scripts\python.exe C:/Users/artem/PycharmProjects/pars/main.py
[]

Process finished with exit code 0

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import requests
from bs4 import BeautifulSoup
import csv
 
HOST = 'https://www.gumtree.com/'
URL = 'https://www.gumtree.com/for-sale'
HEADERS = {
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:87.0) Gecko/20100101 Firefox/87.0'
}
 
def get_html(url, params=''):
    r = requests.get(url, headers=HEADERS, params=params)
    return r
 
def get_content(html):
    soup = BeautifulSoup('html', 'html.parser')
    items = soup.find_all('div', class_='listing-content')
    ads = []
    print(items)
 
html = get_html(URL)
get_content(html.text)

@Dax · 13.04.2021, 09:21

А так?

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
from builtins import print
import requests
import pygame
import os
import sys
import binascii
from pygame.locals import *
import shutil
import bs4
from bs4 import BeautifulSoup
from urllib.request import urlopen
import time
from smtplib import SMTP_SSL
from email.mime.multipart import MIMEMultipart
from email.mime.base import MIMEBase
from email import encoders
import lxml.html
import sqlite3
import urllib
 
url = 'http://htmlbook.ru/samhtml5/ustarevshie-tegi-i-atributy/'
 
 
def get_html(url):
    f = myhtml = urlopen(url)
    sp = BeautifulSoup(myhtml, "html.parser")
    lnk = sp.find_all("span", class_="tag")
    for l in lnk:
        l = str(l)
        l = l.replace('"', ' ')
        l = l.replace("<span class= tag >", '')
        l = l.replace('</span>', ' ')
        l = l.replace('&gt', '')
        l = l.replace('&lt', '')
        l = l.replace(';', ' ')
        print(l)
 
 
if __name__ == '__main__':
    get_html(url)

@Krasti_Krabbs · 13.04.2021, 11:31 **[ТС]**

Нет, так тоже не получается(

@Matrix3007 · 13.04.2021, 13:41

Сообщение от Krasti_Krabbs

BeautifulSoup('html', 'html.parser')

Ну ты чего?

Python
1
BeautifulSoup(html, 'html.parser')

@TheBogdan · 14.04.2021, 23:45

Krasti_Krabbs, особо не вникал в устройство сайта, но примерно так. Решение на базе Селениума и Firefox.

В данном варианте перебираются с первой по десятую страницы.
Запрос (SEARCH_URL) взят по-умолчанию. Сортировка объявлений по дате публикации, но перед ними всегда будут проплаченные.
Можете изменить строку запроса покликав на опции и фильтры и посмотрев в сниффере (Инструменты разработчика - Сеть) как формируется запрос.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
import sys
import time
from selenium import webdriver
from bs4 import BeautifulSoup as bs
 
SOURCE_URL = 'https://www.gumtree.com/for-sale'
SEARCH_URL = 'https://www.gumtree.com/search?featured_filter=false&q=&search_location=uk&search_category=for-sale&urgent_filter=false&search_scope=false&photos_filter=false&sort=date&page='
REQUEST_STATUS_CODE = 200
 
headers = {'accept': '*/*',
           'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36 OPR/63.0.3368.107'
           }
 
# Опции для вебдрайвера
options = webdriver.FirefoxOptions()
# скрываем использование вебдрайвера
options.set_preference('dom.webdriver.enabled', False)
 
# Путь - папка GeckoDriver в этой же папке, где находится данная программа
driver = webdriver.Firefox(
    executable_path='GeckoDriver/geckodriver.exe',
    options=options
)
 
 
def gumtree_parse():
    # Пробуем подключиться к сайту. Если ОК, то работаем дальше. Если ошибка, то выход
    try:
        driver.get(url=SOURCE_URL)
        time.sleep(3)  # Пауза, если скорость подключения низкая
    except Exception as ex:
        print('Error connecting to the site')
        print(ex)
        driver.close()
        driver.quit()
        sys.exit()
 
    # Запрашиваем и анализируем страницы (от и до). В данном случае с первой по десятую
    for i in range(1, 11):
 
        # Добавляем к поисковому запросу номер страницы
        getURL = SEARCH_URL + str(i)
 
        # Запрос страницы
        driver.get(getURL)
 
        # Отправляем полученную страницу в BeautifulSoup
        soup = bs(driver.page_source, 'lxml')
 
        # Находим блок с объявлениями
        div = soup.find_all('article', {'class': 'listing-maxi'})
 
        # Перебираем все объявления в блоке и извлекаем информацию
        # TRY нужен потому, что есть записи без информации. То-ли разделители, то-ли реклама, то-ли ещё что-то
        for item in div:
            try:
                print('==================================================')
                name = item.find('h2', {'class': 'listing-title'}).text
                print(name.strip())
                price = item.find('span', {'class': 'listing-price'}).text
                print(price.strip())
                print('==================================================')
                print('')
            except:
                pass
 
    # Закрываем Selenium, чтобы не остался в памяти
    driver.close()
    driver.quit()
 
 
if __name__ == "__main__":
    gumtree_parse()

@Welemir1 · 15.04.2021, 06:29

Сообщение от TheBogdan

# Отправляем полученную страницу в BeautifulSoup

ну ты чего? так хорошо начал и вдруг... селениум умеет парсить лучше любого супа! ему не нужны никакие приставки чтобы выдернуть из страницы что угодно.

@TheBogdan · 15.04.2021, 10:59

Сообщение от Welemir1

селениум умеет парсить лучше любого супа!

Исходил из предположения, что Krasti_Krabbs с BS знаком, а с Селениумом нет и так ему будет проще переделать код под свою задачу.
Возможно ему понадобятся не только заголовки объявлений, как в примере

Новые блоги и статьи Все статьи Все блоги /
http://iceja.net/ сервер решения полиномов iceja 18.01.2026 Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .	Первый деплой lagorue 17.01.2026 Не спеша развернул своё 1ое приложение в kubernetes. А дальше мне интересно создать 1фронтэнд приложения и 2 бэкэнд приложения развернуть 2 деплоя в кубере получится 2 сервиса и что-бы они. . .	Расчёт переходных процессов в цепи постоянного тока igorrr37 16.01.2026 / * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит: токи, напряжения и их 1 и 2 производные при t = 0;. . .	Восстановить юзерскрипты Greasemonkey из бэкапа браузера damix 15.01.2026 Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Изучаю kubernetes lagorue 14.01.2026 А пригодятся-ли мне знания kubernetes в России?	Сукцессия микоризы: основная теория в виде двух уравнений. anaschu 11.01.2026 https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/	WordPad для Windows 11 Jel 10.01.2026 WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .	Classic Notepad for Windows 11 Jel 10.01.2026 Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .

@Krasti_Krabbs 0 / 0 / 0 Регистрация: 12.04.2021 Сообщений: 2
	13.04.2021, 11:31 [ТС]
	Нет, так тоже не получается( 0