Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/3: Рейтинг темы: голосов - 3, средняя оценка - 4.67
0 / 0 / 0
Регистрация: 29.05.2023
Сообщений: 1

Python. Парсинг. Как со всех страниц?

09.08.2023, 07:30. Показов 752. Ответов 4

Студворк — интернет-сервис помощи студентам
В каталоге 18 страниц надо чтобы со всех страниц парсила а не с одной .Пробовал через range и цикл while не получается .
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
import bs4
import requests
import xlsxwriter
 
main_url = 'https://www.21vek.by/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/115.0.0.0 Safari/537.36'}
gata = [['Наименование', 'Ссылка']]
 
 
 
def get_suol(url):
   res = requests.get(url, headers)
   return bs4.BeautifulSoup(res.text, 'html.parser')
 
 
categories_page = get_suol(main_url+'notebooks/page:1/')
categories = categories_page.find_all('dt', class_='result__root') 
 
 
for cat in categories:
    url = cat.find('a')['href'].strip()
    fone = cat.find('span', class_='result__name').find(text=True).strip()
    gata.append([fone, url])
 
 
with xlsxwriter.Workbook('categories.xlsx') as workbook:
  worksheet = workbook.add_worksheet()
 
  for pow_num, info in enumerate(gata):
      worksheet.write_row(pow_num, 0, info)
  worksheet.autofit()
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
09.08.2023, 07:30
Ответы с готовыми решениями:

Парсинг всех страниц
На дамом сайте около 30 страниц 'https://stopgame.ru/review/izumitelno' как спарсить все название игр в карточках со всех страниц (при...

Парсинг всех страниц сайта
Здравствуйте! В создании парсера на делфи столкнулся со следующей проблемой: Нужно спарсить информацию со всех страниц сайта, а у меня...

Парсинг документов со всех страниц сайта
В общем, суть такова. Мне нужно скачать из сайта https://fasie.ru/ документы. Они могут быть в любом формате: pdf или doc. Мне нужно...

4
 Аватар для kazak
3604 / 2744 / 356
Регистрация: 11.03.2009
Сообщений: 6,307
09.08.2023, 21:06
Ищем ссылки такого вида, если находим, переходим по ним:
HTML5
1
<a rel="next" href="https://www.21vek.by/notebooks/page:X/" name="X" class="j-load_page cr-paging_link">&gt;</a>
1
Любознательный
 Аватар для YuS_2
7406 / 2256 / 360
Регистрация: 10.03.2016
Сообщений: 5,216
09.08.2023, 21:33
Цитата Сообщение от Ariadlif Посмотреть сообщение
Пробовал через range и цикл while не получается .
Находите ссылку с максимальным числом page:N и потом уже формируйте ссылки страниц для парсинга с помощью цикла, в диапазоне чисел от 1 до Nmax
0
148 / 111 / 37
Регистрация: 28.11.2013
Сообщений: 383
12.08.2023, 22:51
Что-то типа такого:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import requests
from bs4 import BeautifulSoup
import lxml
 
start_page = 1
finish_page = 19
 
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/115.0.0.0 Safari/537.36'}
data = [['Наименование', 'Ссылка']]
 
for current_page in range(start_page, finish_page):
    url = f"https://www.21vek.by/notebooks/page:{current_page}/"
    response = requests.get(url=url, headers=headers)
    soup = BeautifulSoup(response.text, 'lxml')
    categories = soup.find_all('dt', class_='result__root')
    
    for cat in categories:
        url = cat.find('a')['href'].strip()
        fone = cat.find('span', class_='result__name').find(text=True).strip()
        data.append([fone, url])
 
    print(data)
0
Любознательный
 Аватар для YuS_2
7406 / 2256 / 360
Регистрация: 10.03.2016
Сообщений: 5,216
13.08.2023, 08:24
Цитата Сообщение от Skryp Посмотреть сообщение
finish_page = 19
Code
1
https://www.21vek.by/mattresses/
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
13.08.2023, 08:24
Помогаю со студенческими работами здесь

Docx + python парсинг xml, не обновляются данные страниц, слов и символов
Добрый вечер, не могу решить следующую ситуацию. Создаю файл *.docx добавляю в него параграф в параграф пишу текст и сохраняю, если открыть...

Найти количество страниц книги по сумме цифр номеров всех страниц
Добрый день! Задача звучит так: &quot;Дано n - сумма цифр номеров всех страниц некоторой книги. Найти количество страниц этой книги.&quot; Не...

В книге n страниц. Найдите количество цифр, необходимое для нумерации всех страниц такой книги
Напишите пожалуйста программу по данной задаче В книге n страниц. Найдите количество цифр, необходимое для нумерации всех страниц...

Как изменить url всех страниц
Всем привет! Есть такие url на сайте: http://sait.ru/Default.aspx?City=Rostov http://sait.ru/Default.aspx?City=Volgograd ...

Как достать ссылку из поисковой системы Яндекс? (Парсинг, python, bs4)
Возникла проблема при парсинге поисковой системы Яндекса. Необходимо сравнить ссылку, которую вводит пользователь и который есть на...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Программный контроль заполнения реквизита табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита "ПричинаСписания". . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Программное заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru