Python. Парсинг. Как со всех страниц?

@Ariadlif · Регистрация: 29.05.2023

Студворк — интернет-сервис помощи студентам

В каталоге 18 страниц надо чтобы со всех страниц парсила а не с одной .Пробовал через range и цикл while не получается .

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
import bs4
import requests
import xlsxwriter
 
main_url = 'https://www.21vek.by/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/115.0.0.0 Safari/537.36'}
gata = [['Наименование', 'Ссылка']]
 
 
 
def get_suol(url):
   res = requests.get(url, headers)
   return bs4.BeautifulSoup(res.text, 'html.parser')
 
 
categories_page = get_suol(main_url+'notebooks/page:1/')
categories = categories_page.find_all('dt', class_='result__root') 
 
 
for cat in categories:
    url = cat.find('a')['href'].strip()
    fone = cat.find('span', class_='result__name').find(text=True).strip()
    gata.append([fone, url])
 
 
with xlsxwriter.Workbook('categories.xlsx') as workbook:
  worksheet = workbook.add_worksheet()
 
  for pow_num, info in enumerate(gata):
      worksheet.write_row(pow_num, 0, info)
  worksheet.autofit()

@kazak · 09.08.2023, 21:06

Ищем ссылки такого вида, если находим, переходим по ним:

HTML5
1
<a rel="next" href="https://www.21vek.by/notebooks/page:X/" name="X" class="j-load_page cr-paging_link">&gt;</a>

YuS_2 · 09.08.2023, 21:33

Сообщение от Ariadlif

Пробовал через range и цикл while не получается .

Находите ссылку с максимальным числом page:N и потом уже формируйте ссылки страниц для парсинга с помощью цикла, в диапазоне чисел от 1 до N_max

@Skryp · 12.08.2023, 22:51

Что-то типа такого:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import requests
from bs4 import BeautifulSoup
import lxml
 
start_page = 1
finish_page = 19
 
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/115.0.0.0 Safari/537.36'}
data = [['Наименование', 'Ссылка']]
 
for current_page in range(start_page, finish_page):
    url = f"https://www.21vek.by/notebooks/page:{current_page}/"
    response = requests.get(url=url, headers=headers)
    soup = BeautifulSoup(response.text, 'lxml')
    categories = soup.find_all('dt', class_='result__root')
    
    for cat in categories:
        url = cat.find('a')['href'].strip()
        fone = cat.find('span', class_='result__name').find(text=True).strip()
        data.append([fone, url])
 
    print(data)

YuS_2 · 13.08.2023, 08:24

Сообщение от Skryp

finish_page = 19

Code
1
https://www.21vek.by/mattresses/

Новые блоги и статьи Все статьи Все блоги /
Программный контроль заполнения реквизита табличной части документа Maks 02.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита "ПричинаСписания". . .	wmic не является внутренней или внешней командой Maks 02.04.2026 Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/	Программная установка даты и запрет ее изменения Maks 02.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .	Вывод данных в справочнике через динамический список Maks 01.04.2026 Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Программное заполнения текстового поля в реквизите формы документа Maks 01.04.2026 Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .	К слову об оптимизации kumehtar 01.04.2026 Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .	Идея фильтра интернета (сервер = слой+фильтр). Hrethgir 31.03.2026 Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .	Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда anaschu 31.03.2026 В прикрепленном документе раздумья о том, как можно поменять модель в будущем