Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.69/13: Рейтинг темы: голосов - 13, средняя оценка - 4.69
0 / 0 / 0
Регистрация: 12.04.2021
Сообщений: 2

Bs4 - не получается извлечь данные с сайта

12.04.2021, 17:45. Показов 2850. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Пытался извлечь с сайта gumtree.com инфу с объявлений, название, цену
Ошибок в коде нет
Мне выдает пустой ответ :

C:\Users\artem\PycharmProjects\pars\venv \Scripts\python.exe C:/Users/artem/PycharmProjects/pars/main.py
[]

Process finished with exit code 0

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import requests
from bs4 import BeautifulSoup
import csv
 
HOST = 'https://www.gumtree.com/'
URL = 'https://www.gumtree.com/for-sale'
HEADERS = {
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:87.0) Gecko/20100101 Firefox/87.0'
}
 
def get_html(url, params=''):
    r = requests.get(url, headers=HEADERS, params=params)
    return r
 
def get_content(html):
    soup = BeautifulSoup('html', 'html.parser')
    items = soup.find_all('div', class_='listing-content')
    ads = []
    print(items)
 
html = get_html(URL)
get_content(html.text)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
12.04.2021, 17:45
Ответы с готовыми решениями:

Не получается корректно извлечь данные из JTextField
Товарищи, добрый день, помогите, пожалуйста, помочь со следующим вопросом. Имеется класс А, в котором генерируется фрейм с 2 полями для...

Не получается правильно извлечь данные из базы
Доброго времени суток, уважаемые форумчане. Передо мной стоит такая задача: в БД есть таблица category_ru и таблица articles. В первой...

Извлечь данные с сайта
На сайте есть таблица данных с расписанием. Нужно извлечь данные и отобразить их. Есть что-то типа Iframe, или как-то можно взять кусок и...

6
Эксперт Python
1356 / 653 / 207
Регистрация: 23.03.2014
Сообщений: 3,057
13.04.2021, 09:21
А так?
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
from builtins import print
import requests
import pygame
import os
import sys
import binascii
from pygame.locals import *
import shutil
import bs4
from bs4 import BeautifulSoup
from urllib.request import urlopen
import time
from smtplib import SMTP_SSL
from email.mime.multipart import MIMEMultipart
from email.mime.base import MIMEBase
from email import encoders
import lxml.html
import sqlite3
import urllib
 
url = 'http://htmlbook.ru/samhtml5/ustarevshie-tegi-i-atributy/'
 
 
def get_html(url):
    f = myhtml = urlopen(url)
    sp = BeautifulSoup(myhtml, "html.parser")
    lnk = sp.find_all("span", class_="tag")
    for l in lnk:
        l = str(l)
        l = l.replace('"', ' ')
        l = l.replace("<span class= tag >", '')
        l = l.replace('</span>', ' ')
        l = l.replace('&gt', '')
        l = l.replace('&lt', '')
        l = l.replace(';', ' ')
        print(l)
 
 
if __name__ == '__main__':
    get_html(url)
0
0 / 0 / 0
Регистрация: 12.04.2021
Сообщений: 2
13.04.2021, 11:31  [ТС]
Нет, так тоже не получается(
0
 Аватар для Matrix3007
198 / 164 / 41
Регистрация: 13.05.2019
Сообщений: 844
13.04.2021, 13:41
Цитата Сообщение от Krasti_Krabbs Посмотреть сообщение
BeautifulSoup('html', 'html.parser')
Ну ты чего?
Python
1
BeautifulSoup(html, 'html.parser')
1
2 / 2 / 1
Регистрация: 08.11.2019
Сообщений: 79
14.04.2021, 23:45
Krasti_Krabbs, особо не вникал в устройство сайта, но примерно так. Решение на базе Селениума и Firefox.

В данном варианте перебираются с первой по десятую страницы.
Запрос (SEARCH_URL) взят по-умолчанию. Сортировка объявлений по дате публикации, но перед ними всегда будут проплаченные.
Можете изменить строку запроса покликав на опции и фильтры и посмотрев в сниффере (Инструменты разработчика - Сеть) как формируется запрос.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
import sys
import time
from selenium import webdriver
from bs4 import BeautifulSoup as bs
 
SOURCE_URL = 'https://www.gumtree.com/for-sale'
SEARCH_URL = 'https://www.gumtree.com/search?featured_filter=false&q=&search_location=uk&search_category=for-sale&urgent_filter=false&search_scope=false&photos_filter=false&sort=date&page='
REQUEST_STATUS_CODE = 200
 
headers = {'accept': '*/*',
           'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36 OPR/63.0.3368.107'
           }
 
# Опции для вебдрайвера
options = webdriver.FirefoxOptions()
# скрываем использование вебдрайвера
options.set_preference('dom.webdriver.enabled', False)
 
# Путь - папка GeckoDriver в этой же папке, где находится данная программа
driver = webdriver.Firefox(
    executable_path='GeckoDriver/geckodriver.exe',
    options=options
)
 
 
def gumtree_parse():
    # Пробуем подключиться к сайту. Если ОК, то работаем дальше. Если ошибка, то выход
    try:
        driver.get(url=SOURCE_URL)
        time.sleep(3)  # Пауза, если скорость подключения низкая
    except Exception as ex:
        print('Error connecting to the site')
        print(ex)
        driver.close()
        driver.quit()
        sys.exit()
 
    # Запрашиваем и анализируем страницы (от и до). В данном случае с первой по десятую
    for i in range(1, 11):
 
        # Добавляем к поисковому запросу номер страницы
        getURL = SEARCH_URL + str(i)
 
        # Запрос страницы
        driver.get(getURL)
 
        # Отправляем полученную страницу в BeautifulSoup
        soup = bs(driver.page_source, 'lxml')
 
        # Находим блок с объявлениями
        div = soup.find_all('article', {'class': 'listing-maxi'})
 
        # Перебираем все объявления в блоке и извлекаем информацию
        # TRY нужен потому, что есть записи без информации. То-ли разделители, то-ли реклама, то-ли ещё что-то
        for item in div:
            try:
                print('==================================================')
                name = item.find('h2', {'class': 'listing-title'}).text
                print(name.strip())
                price = item.find('span', {'class': 'listing-price'}).text
                print(price.strip())
                print('==================================================')
                print('')
            except:
                pass
 
    # Закрываем Selenium, чтобы не остался в памяти
    driver.close()
    driver.quit()
 
 
if __name__ == "__main__":
    gumtree_parse()
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,667
Записей в блоге: 29
15.04.2021, 06:29
Цитата Сообщение от TheBogdan Посмотреть сообщение
# Отправляем полученную страницу в BeautifulSoup
ну ты чего? так хорошо начал и вдруг... селениум умеет парсить лучше любого супа! ему не нужны никакие приставки чтобы выдернуть из страницы что угодно.
0
2 / 2 / 1
Регистрация: 08.11.2019
Сообщений: 79
15.04.2021, 10:59
Цитата Сообщение от Welemir1 Посмотреть сообщение
селениум умеет парсить лучше любого супа!
Исходил из предположения, что Krasti_Krabbs с BS знаком, а с Селениумом нет и так ему будет проще переделать код под свою задачу.
Возможно ему понадобятся не только заголовки объявлений, как в примере
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
15.04.2021, 10:59
Помогаю со студенческими работами здесь

Не получается извлечь данные без ограничения в функции iif
добрый день! первый день на форуме поэтому не пинайте сильно. есть запрос IIf(!!=Истина; !!; Like &quot;*&quot;) суть его...

Как можно извлечь данные с сайта в отдельный документ?
Задача примерно такая - есть сайт, на нем есть цена, она динамична. Подскажите, пожалуйста - как можно извлекать это значение в отдельный...

не получается импортировать скачанные пакеты (bs4,requests и т.д.)
Добрый день. Пользуясь уроками из инета - скачал через pip в cmd различные пакеты - bs4, requests и т.д. , но проблема в том что не...

Парсинг сайта с bs4
Добрый день! Хочу распарсить и пройтись по всем названиям товаров на странице, однако, метод find_all() стабильно находит лишь 4 товара на...

Парсинг сайта с bs4
Здравствуйте! Пытаюсь спарсить один сайт, но выводит постоянно это: (Скриншот) В чем может быть проблема?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Первый деплой
lagorue 17.01.2026
Не спеша развернул своё 1ое приложение в kubernetes. А дальше мне интересно создать 1фронтэнд приложения и 2 бэкэнд приложения развернуть 2 деплоя в кубере получится 2 сервиса и что-бы они. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит: токи, напряжения и их 1 и 2 производные при t = 0;. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Изучаю kubernetes
lagorue 14.01.2026
А пригодятся-ли мне знания kubernetes в России?
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru