Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.60/5: Рейтинг темы: голосов - 5, средняя оценка - 4.60
0 / 0 / 0
Регистрация: 18.11.2019
Сообщений: 5

Нужно сделать так чтобы парсер собирал инфу не только с 1 страницы ,а и со всех остальных ,что нужно исправить ?

30.07.2020, 18:25. Показов 1064. Ответов 1

Студворк — интернет-сервис помощи студентам
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
import logging
import collections
import csv
import requests
import bs4
 
logging.basicConfig(level=logging.DEBUG)
logger = logging.getLogger('Avito')
 
ParseResult = collections.namedtuple(
    'ParseResult', (
        'Name',
        'Price',
        'Url',
    )
)
 
HEADERS = (
    'Название',
    'Цена',
    'Cсылка'
)
 
 
 
class Client():
 
    def __init__(self):
        self.session = requests.Session()
        self.session.headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:78.0) Gecko/20100101 Firefox/78.0',
            'Accept-Language': 'ru-RU,ru;q=0.8,en-US;q=0.5,en;q=0.3'
        }
        self.result = []
 
 
    def load_page(self):
        page = 1
        while page < 101:
            page += 1
            # url = 'https://www.avito.ru/moskva?q=машина&p=' + str(page)
            url = str(input('Введите пожалуйста ссылку "Авито", которую вы хотите спарсить ')) + '&p=' + str(page)
            res = self.session.get(url=url)
            res.raise_for_status()
            return res.text
 
 
    def parse_page(self, text: str):
        soup = bs4.BeautifulSoup(text, 'lxml')
        container = soup.select('div.description')
        for block in container:
            self.parse_block(block=block)
 
    def parse_block(self, block):
        # logger.info(block)
        # logger.info('=' * 100)
 
        url_block = block.select_one('a.snippet-link')
        if not url_block:
            logger.error('no url_block')
            return
 
        url = url_block.get('href')
        if not url:
            logger.error('no href')
            return
        name = url_block.get('title')
        # print(str(name))
 
        price_block = block.select_one('span.snippet-price')
        if not price_block:
            logger.error('no price')
            return
        # print(price_block)
 
        # Wrangler /
        # name = name.text
        name = name.replace('/', '')
 
        price_block = price_block.text
        price_block = price_block.replace('<span class="snippet-price" data-marker="item-price" data-shape="default" itemprop="offers" itemscope="" itemtype="http://schema.org/Offer"><meta content="RUB" itemprop="priceCurrency"/><meta content="2000" itemprop="price"/><meta content="https://schema.org/LimitedAvailability" itemprop="availability"/>', 'span')
 
        logger.info('%s', 'www.avito.ru' + url)
        logger.info('%s', str(name))
        logger.info('%s', str(price_block))
 
        self.result.append(ParseResult(
            Name=str(name),
            Price=str(price_block),
            Url=str('www.avito.ru' + url)
 
 
 
        ))
 
    def save_result(self):
        path = '/Users/moddy/PycharmProjects/Avito_python/venv/info.csv'
        with open(path, 'w') as f:
            writer = csv.writer(f, quoting=csv.QUOTE_MINIMAL)
            writer.writerow(HEADERS)
            for item in self.result:
                writer.writerow(item)
 
 
    def run(self):
        text = self.load_page()
        self.parse_page(text=text)
        self.save_result()
 
 
if __name__ == '__main__':
    parser = Client()
    parser.run()
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
30.07.2020, 18:25
Ответы с готовыми решениями:

нужно реализовать так что бы на главной страницы выводились заметки только с рубрики новости, а с остальных не выводили только по переходу на данную р
Добрый день нужна помощь или совет! Вообщем ближе к делу мне нужно реализовать так что бы на главной страницы выводились заметки...

Работающая программа только нужно с ней сделать так, чтобы центры рисовались у треугольников темже цветом,что и треугольник подскажите пожалуйста
#include &lt;vcl.h&gt; #pragma hdrstop #include &quot;Unit1.h&quot; //--------------------------------------------------------------------------- ...

Нужно, чтобы внутри этой страницы можно было так же сделать get запрос
Здравствуйте, есть такой вопрос, который я сам не решу. возможно это покажется глупо, но что же поделать...) &lt;?php ...

1
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
30.07.2020, 20:36
Цитата Сообщение от Moddy3117 Посмотреть сообщение
'Введите пожалуйста ссылку "Авито", которую вы хотите спарсить '
А для кого ты пишешь скрипт? Если для клиента, то ему такое не понравится.

Вызывать res.raise_for_status() крайне самонадеянно, если не знаешь что это и никак не обрабатываешь. Твой скрипт будет падать каждый раз, когда сервак вернет ответ не равный 200.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
30.07.2020, 20:36
Помогаю со студенческими работами здесь

Нужно сделать так чтобы функция что-то считывала
#include &lt;iostream&gt; #include &lt;string.h&gt; using namespace std; char s; int k = 0; int proverka() { for (int i = 0; i &lt;...

Сделать так, чтобы рисовать отдельно то, что нужно
Привет!Проблема следующая, мне нужно сделать многопоточное приложение( простенькую игрушку) но для этого нужно рисовать поочередно, а не...

Нужно сделать так, чтобы программа запускалась только если ей передать заданный аргумент.
сразу приношу извинения, но я не нащёл подходящего раздела. суть такова. есть программа(исходников нет) нужно сделать так, чтобы она...

Что тут нужно исправить, чтобы textBox выводились не только цифры, но и знаки сложения, вычитания, и т.д с клавиатуры
Что нужно здесь исправить или написать, чтобы textBox выводились не только цифры, но и знаки сложения, вычитания, умножения и т.д с...

Нужно преобразовать код так, чтобы то, что нужно шифровать бралось из txtA и зашифрованное попадало в txtB
Нужно преобразовать код так, чтобы то, что нужно шифровать бралось из txtA и зашифрованное попадало в txtB И тоже самое при дешифровке....


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru