Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.71/7: Рейтинг темы: голосов - 7, средняя оценка - 4.71
0 / 0 / 0
Регистрация: 06.01.2015
Сообщений: 40

Пагинация web-ресурса

15.10.2015, 21:49. Показов 1540. Ответов 10
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем доброго времени суток, пытаюсь разобраться парсингом сайта, застрял на т.н. пагинации т.е., как я понял, пролистывании сайта. Листать сайт со структурой: http://example.ru/news/?page=1 понятно как, но вот не знаю как это делать с сайтами такого рода: http://example.ru/news/full_ti... _and_so_on

Python
1
2
3
4
import requests
base_url = "http://example.ru/news/?page=%s"
for url in [base_url % i for i in range(10)]:
    r = requests.get(url)
Как собрать все ссылки с сайта? Помогите пожалуйста!
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
15.10.2015, 21:49
Ответы с готовыми решениями:

Загрузка с Web ресурса
Доброго дня. Макросом записал такой код, загружает данные с http://www.cbr.ru/hd_base/mosprime/ Sub load() ...

Нуждаюсь в разработке web ресурса
Добрый день. Меня зовут Александр, занимаюсь удаленными продажами (привлечение клиентов для компаний торгующих строительными...

Создание базы данных из источника (web-ресурса)
Добрый день. Хочу создать свою фильмотеку с просмотренными фильмами. Нет времени создавать с нуля и вводить вручную. Некоторые фильмы я...

10
 Аватар для ivlevdenis
21 / 34 / 14
Регистрация: 23.07.2014
Сообщений: 148
16.10.2015, 15:16
Нужно использовать соответствующие инструменты.
BeautifulSoup, Grab, Selenium и прочее.
0
Эксперт NIX
 Аватар для Marinero
2796 / 2039 / 682
Регистрация: 02.03.2015
Сообщений: 6,509
16.10.2015, 16:41
ivlevdenis, Чем Вам requests не «соответствующий инструмент»?
0
 Аватар для Zuzik
298 / 256 / 57
Регистрация: 11.06.2012
Сообщений: 1,557
16.10.2015, 18:59
Marinero, Если не ошибаюсь - requests предоставляет в разы меньше возможностей для вытягивания полученной информации.
0
Эксперт NIX
 Аватар для Marinero
2796 / 2039 / 682
Регистрация: 02.03.2015
Сообщений: 6,509
16.10.2015, 20:54
Zuzik, alex925 это расскажите…
1
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
17.10.2015, 17:46
Цитата Сообщение от Zuzik Посмотреть сообщение
Если не ошибаюсь - requests предоставляет в разы меньше возможностей для вытягивания полученной информации.
Там не меньше возможностей, просто возможности более низкоуровневые так сказать, вот и все.

Efresco, ты можешь дать ссылку на конкретный сайт, который хочешь распарсить, а то с таким очень абстрактным описанием задачи невозможно ничего посоветовать.
0
0 / 0 / 0
Регистрация: 06.01.2015
Сообщений: 40
17.10.2015, 17:50  [ТС]
Сайт: http://phys.org/
Конкретно интересуют все статьи такого вида http://phys.org/news/2015-10-b... rials.html
Неизменяемая часть: http://phys.org/news/
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
17.10.2015, 21:00
Efresco, на этом сайте, что ты кинул, пагинация выполнена в виде бесконечно прокручиваемой страницы и новые данные загружаются с помощью ajax.
Если ты хочешь пройтись по всем страницам, то тебе надо эмулировать ajax запрос и просто пасить ответ (в ответ прилетает там html разметка). Открой инструменты разработчика, перейди в раздел "сеть" и там смотри какой запрос отправляется. Я посмотрел, его на сколько понял легко съэмулировать будет.
0
 Аватар для ivlevdenis
21 / 34 / 14
Регистрация: 23.07.2014
Сообщений: 148
17.10.2015, 22:55
Можно с помощью selenium делать прокрутку
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
17.10.2015, 23:08
ivlevdenis, можно, но это overhead.
0
0 / 0 / 0
Регистрация: 06.01.2015
Сообщений: 40
18.10.2015, 13:43  [ТС]
alex925, Спасибо, что-то я сам не догадался, сайт проще настраивать по разделам
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
18.10.2015, 13:43
Помогаю со студенческими работами здесь

Парсинг в Web-ресурса для представления в оффлайн-режиме
Стоит следующая задача: Проект представляет из себя оффлайн справочник по сайту relax.by. То есть в момент входа, если есть интернет, он...

Получение Модели DOM (Web ресурса), загруженной JAVA приложением на компе
Всем здравствуйте! Описание проблемы: Есть информационная система работа с которой осуществляется через браузер(IE). Я не являюсь...

Обычная пагинация или пагинация на ajax
Всем сеошникам привет! Ребята, создается блог на вордпрессе и встал вопрос о выборе пагинации: обычной < 1 2 3 > или на аяксе, с...

Как сделать добычу ресурса при входе в область ресурса и нажатии кнопки E?
Как сделать добычу ресурса при входе в область ресурса и нажатии кнопки E Как сделать добычу ресурса при входе в область ресурса и...

Как сделать добычу ресурса при входе в область ресурса и нажатии кнопки E?
Как сделать добычу ресурса при входе в область ресурса и нажатии кнопки E Как сделать так, что бы когда красный квадрат входил в...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
11
Ответ Создать тему
Новые блоги и статьи
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru