Форум программистов, компьютерный форум, киберфорум
Python: Сети
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.68/47: Рейтинг темы: голосов - 47, средняя оценка - 4.68
0 / 0 / 0
Регистрация: 08.06.2021
Сообщений: 48

Парсер Циан

19.04.2022, 13:04. Показов 10682. Ответов 8
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день, господа. Хотел сделать парсер для квартир на Циан. Задачей моего следующего кода было обнаружение блока div, нахождение в нём ссылки a, выписывания её в словарь, а затем из словаря нахождение блока href и записывания его содержания, то есть ссылки, в файл. Но что-то не идёт, словарь постоянно пустой, ничем не наполняется. Ошибок не выдаёт. В чём может быть проблема?

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
import requests
from bs4 import BeautifulSoup
 
floats = []
a = []
 
# url = 'https://saratov.cian.ru/cat.php?currency=2&deal_type=rent&engine_version=2&maxprice=10000&offer_type=flat&p=1&region=5066&room1=1&room2=1&type=4'
# req = requests.get(url)
# print(req.status_code)
 
for i in range(0, 28):
    url = f'https://saratov.cian.ru/cat.php?currency=2&deal_type=rent&engine_version=2&maxprice=10000&offer_type=flat&p={i}&region=5066&room1=1&room2=1&type=4'
 
    q = requests.get(url)
    result = q.content
 
    soup = BeautifulSoup(result, 'lxml')
    div = soup.find_all('div', class_= '_93444fe79c--container--kZeLu _93444fe79c--link--DqDOy')
    
    for a in div:
        classes = div.find_all('a')
        a.append(classes)
  
    for link in a:
        float_page_link = link.get('href')
        floats.append(float_page_link)
    
    print(floats)
    
 
with open('floats.txt', 'a') as file:
    for line in floats:
        file.write(f'{line}\n')
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
19.04.2022, 13:04
Ответы с готовыми решениями:

Get запрос на Циан
Помогите в вопросе создания запроса API для ЦИАН, пожалуйста! Нужно выбрать три объявления в определенном городе о стоимости аренды...

Крашится приложение после портирования на Циан
ПРИВЕТ ПОРТИРУЮ ЦИАН СТОЛКНУЛСЯ С ПРОБЛЕМОЙ КРОШИТСЯ ПРИЛОЖЕНИЕ ТЕЛЕФОН ЗАГРУЖАЕТСЯ ВЫДАЕТ COM.ANDROID.PHONE ...

Парсер
Здравствуйте. Подскажите, пожалуйста, имеется страница с такими строками {"name":"Electronics & Office" ...

8
5042 / 1069 / 149
Регистрация: 29.01.2013
Сообщений: 6,241
19.04.2022, 13:59
mandril, не хотите пройтись отладчиком по вашему приложению?
0
0 / 0 / 0
Регистрация: 08.06.2021
Сообщений: 48
20.04.2022, 18:35  [ТС]
Запускал, ничего не происходило, просто прошлось по коду, ошибок не обнаружило.
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
20.04.2022, 23:17
mandril,

добавьте в хедеры user-agent

Python
1
2
3
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36"
}
и запрос делайте с ними

Python
1
q = requests.get(url, headers=headers)
текст вынимайте через .text

Python
1
result = q.text
0
0 / 0 / 0
Регистрация: 08.06.2021
Сообщений: 48
21.04.2022, 16:34  [ТС]
Спасибо огромное, всё получилось. Если не будет трудно, можете объяснить в чём была проблема? Что такое headers?
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
21.04.2022, 16:37
Лучший ответ Сообщение было отмечено mandril как решение

Решение

Вот тут про HTTP заголовки.
Вот тут конкретно про User-Agent.
0
0 / 0 / 0
Регистрация: 08.06.2021
Сообщений: 48
21.04.2022, 20:01  [ТС]
Снова добрый вечер, с ним опять какая-то беда. В общем, всё отлично работало, я немного облегчил код. Скопировал все ссылки и занялся следующей частью работы с ними. В какой-то момент мой код напрочь сломался. Если кратко объяснить смысл работы кода - он переходил по ссылке, забирал данные с сайта и кидал их в json файл. Когда он перестал работать, я решил начать заново и снова собрать ссылки, но он отказался это выполнять, вновь выдавая мне пусто словарь. Вот как выглядит код на данный момент:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
import requests
from bs4 import BeautifulSoup
import time
import json
 
floats = []
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.133 Safari/537.36"
}
 
# url = 'https://saratov.cian.ru/cat.php?currency=2&deal_type=rent&engine_version=2&maxprice=10000&offer_type=flat&p=1&region=4969&room1=1&room2=1&type=4'
# req = requests.get(url)
# print(req.status_code)
 
for i in range(0, 16):
    url = f'https://saratov.cian.ru/cat.php?currency=2&deal_type=rent&engine_version=2&maxprice=10000&offer_type=flat&p={i}&region=4969&room1=1&room2=1&type=4'
 
    q = requests.get(url=url, headers=headers)
    result = q.text
 
    soup = BeautifulSoup(result, 'lxml')
    links = soup.find_all(class_= '_93444fe79c--link--eoxce')
 
    for link in links:
        float_page_link = link.get('href')
        floats.append(float_page_link)
    
    print(floats)
    time.sleep(3)
 
sorter = [] 
for link in floats: 
    if link not in sorter: 
        sorter.append(link) 
 
floats = sorter
 
 
with open('floats.txt', 'a') as file:
    for line in floats:
        file.write(f'{line}\n')
так выглядит его вывод:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
PS D:\Python\parsing\cian old> python cian_old.py run
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
Добавлено через 1 минуту
Если вам это потребуется, вот как выглядит вторая часть код:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
with open('floats.txt') as file:
    lines = [line.strip() for line in file.readlines()]
 
    data_flats = []
    count = 0
    for line in lines:
        print(line)
        q = requests.get(line, headers=headers)
        result = q.text
 
        soup = BeautifulSoup(result, 'lxml')
 
        print(q.status_code)
 
        address = soup.find('meta', property='og:description')
        price = soup.find('span', itemprop='price')
        dop_price = soup.find('p', class_='a10a3f92e9--description--CPyUa').text
        time.sleep(3)
      
        data = {
            'address': address['content'],
            'price': price['content'],
            'dop_price': dop_price,
            'link': line
        }
 
        count += 1
        print(f'#{count}: {line} is done!')
 
        data_flats.append(data)
 
        with open('flats.json', 'w') as json_file:
            json.dump(data_flats, json_file, indent=4, ensure_ascii=False)
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
21.04.2022, 20:16
python cian_old.py run
Не знаю, что тут должно означать run, но в целом код рабочий, у меня выполняется, делает принт и пишет в файл.
Думаю, Вас могли просто забанить.

Кликните здесь для просмотра всего текста
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
(venv) ~ python3 test.py
['https://saratov.cian.ru/rent/flat/265458156/', 'https://saratov.cian.ru/rent/flat/272131021/', 'https://saratov.cian.ru/rent/flat/272565434/', 'https://saratov.cian.ru/rent/flat/272133454/', 'https://saratov.cian.ru/rent/flat/268064495/', 'https://saratov.cian.ru/rent/flat/272460937/', 'https://saratov.cian.ru/rent/flat/272025830/', 'https://saratov.cian.ru/rent/flat/272553537/', 'https://saratov.cian.ru/rent/flat/270886580/', 'https://saratov.cian.ru/rent/flat/266723877/', 'https://saratov.cian.ru/rent/flat/255781503/', 'https://saratov.cian.ru/rent/flat/268738413/', 'https://saratov.cian.ru/rent/flat/265246544/', 'https://saratov.cian.ru/rent/flat/245534211/', 'https://saratov.cian.ru/rent/flat/271656593/', 'https://saratov.cian.ru/rent/flat/272602487/', 'https://saratov.cian.ru/rent/flat/253182842/', 'https://saratov.cian.ru/rent/flat/271092338/', 'https://saratov.cian.ru/rent/flat/257673048/', 'https://saratov.cian.ru/rent/flat/229583336/', 'https://saratov.cian.ru/rent/flat/249977290/', 'https://saratov.cian.ru/rent/flat/266276785/', 'https://saratov.cian.ru/rent/flat/272678632/', 'https://saratov.cian.ru/rent/flat/272640113/', 'https://saratov.cian.ru/rent/flat/272677257/', 'https://saratov.cian.ru/rent/flat/271204188/', 'https://saratov.cian.ru/rent/flat/272552533/', 'https://saratov.cian.ru/rent/flat/259539753/']
 
(venv) ~ cat floats.txt
'https://saratov.cian.ru/rent/flat/265458156/
https://saratov.cian.ru/rent/flat/272131021/
https://saratov.cian.ru/rent/flat/272565434/
https://saratov.cian.ru/rent/flat/272133454/
https://saratov.cian.ru/rent/flat/268064495/
https://saratov.cian.ru/rent/flat/272460937/
https://saratov.cian.ru/rent/flat/272025830/
https://saratov.cian.ru/rent/flat/272553537/
https://saratov.cian.ru/rent/flat/270886580/
https://saratov.cian.ru/rent/flat/266723877/
https://saratov.cian.ru/rent/flat/255781503/
https://saratov.cian.ru/rent/flat/268738413/
https://saratov.cian.ru/rent/flat/265246544/
https://saratov.cian.ru/rent/flat/245534211/
https://saratov.cian.ru/rent/flat/271656593/
https://saratov.cian.ru/rent/flat/272602487/
https://saratov.cian.ru/rent/flat/253182842/
https://saratov.cian.ru/rent/flat/271092338/
https://saratov.cian.ru/rent/flat/257673048/
https://saratov.cian.ru/rent/flat/229583336/
https://saratov.cian.ru/rent/flat/249977290/
https://saratov.cian.ru/rent/flat/266276785/
https://saratov.cian.ru/rent/flat/272678632/
https://saratov.cian.ru/rent/flat/272640113/
https://saratov.cian.ru/rent/flat/272677257/
https://saratov.cian.ru/rent/flat/271204188/
https://saratov.cian.ru/rent/flat/272552533/
https://saratov.cian.ru/rent/flat/259539753/


ибо... https://saratov.cian.ru/legal-... om_cian_0/

7.2. Пользователю запрещается:
...
7.2.3. использовать без специального на то разрешения Администрации Сайта ЦИАН автоматизированные скрипты (программы) для сбора информации на Сайте и/или взаимодействия с Сайтом и его функционалом;
0
0 / 0 / 0
Регистрация: 08.06.2021
Сообщений: 48
21.04.2022, 20:19  [ТС]
Да, я уже проверил. Но было достаточно просто перезапустить роутер, чтобы ip обновился. Спасибо большое, вновь
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
21.04.2022, 20:19
Помогаю со студенческими работами здесь

Парсер
У меня есть такая таблица, https://www.op.gg/statistics/ajax2/champion/type=win&league=platinum&period=week&mapId=12&queue=aram Я хочу...

парсер
пытался переделать исходники парсера из delphi xe3 в delphi 7, выдает ошибку:

Парсер
Привет всем Как можно спарсить инвентари игр (либо игры) со страницы вида http://steamcommunity.com/profiles/xxxxxxxxxxxxxx/inventory/...

Парсер
Всем привет. Прошу помочь Нужно написать функции parsePr и parseFac data Token = CONST Integer| LPAREN | RPAREN | PLUS | TIMES ...

Парсер на js
Здравствуйте, знаю обычно парсеры пишутся на php, но увы жизнь заставила... В общем нужно чтобы парсер сработал на тороне клиента, т.к...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru