С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python: Сети
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.68/47: Рейтинг темы: голосов - 47, средняя оценка - 4.68
0 / 0 / 0
Регистрация: 08.06.2021
Сообщений: 48

Парсер Циан

19.04.2022, 13:04. Показов 10373. Ответов 8
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день, господа. Хотел сделать парсер для квартир на Циан. Задачей моего следующего кода было обнаружение блока div, нахождение в нём ссылки a, выписывания её в словарь, а затем из словаря нахождение блока href и записывания его содержания, то есть ссылки, в файл. Но что-то не идёт, словарь постоянно пустой, ничем не наполняется. Ошибок не выдаёт. В чём может быть проблема?

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
import requests
from bs4 import BeautifulSoup
 
floats = []
a = []
 
# url = 'https://saratov.cian.ru/cat.php?currency=2&deal_type=rent&engine_version=2&maxprice=10000&offer_type=flat&p=1&region=5066&room1=1&room2=1&type=4'
# req = requests.get(url)
# print(req.status_code)
 
for i in range(0, 28):
    url = f'https://saratov.cian.ru/cat.php?currency=2&deal_type=rent&engine_version=2&maxprice=10000&offer_type=flat&p={i}&region=5066&room1=1&room2=1&type=4'
 
    q = requests.get(url)
    result = q.content
 
    soup = BeautifulSoup(result, 'lxml')
    div = soup.find_all('div', class_= '_93444fe79c--container--kZeLu _93444fe79c--link--DqDOy')
    
    for a in div:
        classes = div.find_all('a')
        a.append(classes)
  
    for link in a:
        float_page_link = link.get('href')
        floats.append(float_page_link)
    
    print(floats)
    
 
with open('floats.txt', 'a') as file:
    for line in floats:
        file.write(f'{line}\n')
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
19.04.2022, 13:04
Ответы с готовыми решениями:

Get запрос на Циан
Помогите в вопросе создания запроса API для ЦИАН, пожалуйста! Нужно выбрать три объявления в определенном городе о стоимости аренды...

Крашится приложение после портирования на Циан
ПРИВЕТ ПОРТИРУЮ ЦИАН СТОЛКНУЛСЯ С ПРОБЛЕМОЙ КРОШИТСЯ ПРИЛОЖЕНИЕ ТЕЛЕФОН ЗАГРУЖАЕТСЯ ВЫДАЕТ COM.ANDROID.PHONE ...

Парсер
Здравствуйте. Подскажите, пожалуйста, имеется страница с такими строками {"name":"Electronics & Office" ...

8
5025 / 1054 / 147
Регистрация: 29.01.2013
Сообщений: 6,188
19.04.2022, 13:59
mandril, не хотите пройтись отладчиком по вашему приложению?
0
0 / 0 / 0
Регистрация: 08.06.2021
Сообщений: 48
20.04.2022, 18:35  [ТС]
Запускал, ничего не происходило, просто прошлось по коду, ошибок не обнаружило.
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
20.04.2022, 23:17
mandril,

добавьте в хедеры user-agent

Python
1
2
3
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36"
}
и запрос делайте с ними

Python
1
q = requests.get(url, headers=headers)
текст вынимайте через .text

Python
1
result = q.text
0
0 / 0 / 0
Регистрация: 08.06.2021
Сообщений: 48
21.04.2022, 16:34  [ТС]
Спасибо огромное, всё получилось. Если не будет трудно, можете объяснить в чём была проблема? Что такое headers?
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
21.04.2022, 16:37
Лучший ответ Сообщение было отмечено mandril как решение

Решение

Вот тут про HTTP заголовки.
Вот тут конкретно про User-Agent.
0
0 / 0 / 0
Регистрация: 08.06.2021
Сообщений: 48
21.04.2022, 20:01  [ТС]
Снова добрый вечер, с ним опять какая-то беда. В общем, всё отлично работало, я немного облегчил код. Скопировал все ссылки и занялся следующей частью работы с ними. В какой-то момент мой код напрочь сломался. Если кратко объяснить смысл работы кода - он переходил по ссылке, забирал данные с сайта и кидал их в json файл. Когда он перестал работать, я решил начать заново и снова собрать ссылки, но он отказался это выполнять, вновь выдавая мне пусто словарь. Вот как выглядит код на данный момент:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
import requests
from bs4 import BeautifulSoup
import time
import json
 
floats = []
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.133 Safari/537.36"
}
 
# url = 'https://saratov.cian.ru/cat.php?currency=2&deal_type=rent&engine_version=2&maxprice=10000&offer_type=flat&p=1&region=4969&room1=1&room2=1&type=4'
# req = requests.get(url)
# print(req.status_code)
 
for i in range(0, 16):
    url = f'https://saratov.cian.ru/cat.php?currency=2&deal_type=rent&engine_version=2&maxprice=10000&offer_type=flat&p={i}&region=4969&room1=1&room2=1&type=4'
 
    q = requests.get(url=url, headers=headers)
    result = q.text
 
    soup = BeautifulSoup(result, 'lxml')
    links = soup.find_all(class_= '_93444fe79c--link--eoxce')
 
    for link in links:
        float_page_link = link.get('href')
        floats.append(float_page_link)
    
    print(floats)
    time.sleep(3)
 
sorter = [] 
for link in floats: 
    if link not in sorter: 
        sorter.append(link) 
 
floats = sorter
 
 
with open('floats.txt', 'a') as file:
    for line in floats:
        file.write(f'{line}\n')
так выглядит его вывод:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
PS D:\Python\parsing\cian old> python cian_old.py run
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
Добавлено через 1 минуту
Если вам это потребуется, вот как выглядит вторая часть код:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
with open('floats.txt') as file:
    lines = [line.strip() for line in file.readlines()]
 
    data_flats = []
    count = 0
    for line in lines:
        print(line)
        q = requests.get(line, headers=headers)
        result = q.text
 
        soup = BeautifulSoup(result, 'lxml')
 
        print(q.status_code)
 
        address = soup.find('meta', property='og:description')
        price = soup.find('span', itemprop='price')
        dop_price = soup.find('p', class_='a10a3f92e9--description--CPyUa').text
        time.sleep(3)
      
        data = {
            'address': address['content'],
            'price': price['content'],
            'dop_price': dop_price,
            'link': line
        }
 
        count += 1
        print(f'#{count}: {line} is done!')
 
        data_flats.append(data)
 
        with open('flats.json', 'w') as json_file:
            json.dump(data_flats, json_file, indent=4, ensure_ascii=False)
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
21.04.2022, 20:16
python cian_old.py run
Не знаю, что тут должно означать run, но в целом код рабочий, у меня выполняется, делает принт и пишет в файл.
Думаю, Вас могли просто забанить.

Кликните здесь для просмотра всего текста
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
(venv) ~ python3 test.py
['https://saratov.cian.ru/rent/flat/265458156/', 'https://saratov.cian.ru/rent/flat/272131021/', 'https://saratov.cian.ru/rent/flat/272565434/', 'https://saratov.cian.ru/rent/flat/272133454/', 'https://saratov.cian.ru/rent/flat/268064495/', 'https://saratov.cian.ru/rent/flat/272460937/', 'https://saratov.cian.ru/rent/flat/272025830/', 'https://saratov.cian.ru/rent/flat/272553537/', 'https://saratov.cian.ru/rent/flat/270886580/', 'https://saratov.cian.ru/rent/flat/266723877/', 'https://saratov.cian.ru/rent/flat/255781503/', 'https://saratov.cian.ru/rent/flat/268738413/', 'https://saratov.cian.ru/rent/flat/265246544/', 'https://saratov.cian.ru/rent/flat/245534211/', 'https://saratov.cian.ru/rent/flat/271656593/', 'https://saratov.cian.ru/rent/flat/272602487/', 'https://saratov.cian.ru/rent/flat/253182842/', 'https://saratov.cian.ru/rent/flat/271092338/', 'https://saratov.cian.ru/rent/flat/257673048/', 'https://saratov.cian.ru/rent/flat/229583336/', 'https://saratov.cian.ru/rent/flat/249977290/', 'https://saratov.cian.ru/rent/flat/266276785/', 'https://saratov.cian.ru/rent/flat/272678632/', 'https://saratov.cian.ru/rent/flat/272640113/', 'https://saratov.cian.ru/rent/flat/272677257/', 'https://saratov.cian.ru/rent/flat/271204188/', 'https://saratov.cian.ru/rent/flat/272552533/', 'https://saratov.cian.ru/rent/flat/259539753/']
 
(venv) ~ cat floats.txt
'https://saratov.cian.ru/rent/flat/265458156/
https://saratov.cian.ru/rent/flat/272131021/
https://saratov.cian.ru/rent/flat/272565434/
https://saratov.cian.ru/rent/flat/272133454/
https://saratov.cian.ru/rent/flat/268064495/
https://saratov.cian.ru/rent/flat/272460937/
https://saratov.cian.ru/rent/flat/272025830/
https://saratov.cian.ru/rent/flat/272553537/
https://saratov.cian.ru/rent/flat/270886580/
https://saratov.cian.ru/rent/flat/266723877/
https://saratov.cian.ru/rent/flat/255781503/
https://saratov.cian.ru/rent/flat/268738413/
https://saratov.cian.ru/rent/flat/265246544/
https://saratov.cian.ru/rent/flat/245534211/
https://saratov.cian.ru/rent/flat/271656593/
https://saratov.cian.ru/rent/flat/272602487/
https://saratov.cian.ru/rent/flat/253182842/
https://saratov.cian.ru/rent/flat/271092338/
https://saratov.cian.ru/rent/flat/257673048/
https://saratov.cian.ru/rent/flat/229583336/
https://saratov.cian.ru/rent/flat/249977290/
https://saratov.cian.ru/rent/flat/266276785/
https://saratov.cian.ru/rent/flat/272678632/
https://saratov.cian.ru/rent/flat/272640113/
https://saratov.cian.ru/rent/flat/272677257/
https://saratov.cian.ru/rent/flat/271204188/
https://saratov.cian.ru/rent/flat/272552533/
https://saratov.cian.ru/rent/flat/259539753/


ибо... https://saratov.cian.ru/legal-... om_cian_0/

7.2. Пользователю запрещается:
...
7.2.3. использовать без специального на то разрешения Администрации Сайта ЦИАН автоматизированные скрипты (программы) для сбора информации на Сайте и/или взаимодействия с Сайтом и его функционалом;
0
0 / 0 / 0
Регистрация: 08.06.2021
Сообщений: 48
21.04.2022, 20:19  [ТС]
Да, я уже проверил. Но было достаточно просто перезапустить роутер, чтобы ip обновился. Спасибо большое, вновь
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
21.04.2022, 20:19
Помогаю со студенческими работами здесь

Парсер
У меня есть такая таблица, https://www.op.gg/statistics/ajax2/champion/type=win&league=platinum&period=week&mapId=12&queue=aram Я хочу...

парсер
пытался переделать исходники парсера из delphi xe3 в delphi 7, выдает ошибку:

Парсер
Привет всем Как можно спарсить инвентари игр (либо игры) со страницы вида http://steamcommunity.com/profiles/xxxxxxxxxxxxxx/inventory/...

Парсер
Всем привет. Прошу помочь Нужно написать функции parsePr и parseFac data Token = CONST Integer| LPAREN | RPAREN | PLUS | TIMES ...

Парсер на js
Здравствуйте, знаю обычно парсеры пишутся на php, но увы жизнь заставила... В общем нужно чтобы парсер сработал на тороне клиента, т.к...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
Учёным и волонтёрам проекта «Einstein@home» удалось обнаружить четыре гамма-лучевых пульсара в джете Млечного Пути
Programma_Boinc 01.01.2026
Учёным и волонтёрам проекта «Einstein@home» удалось обнаружить четыре гамма-лучевых пульсара в джете Млечного Пути Сочетание глобально распределённой вычислительной мощности и инновационных. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru