18 / 18 / 2
Регистрация: 22.09.2015
Сообщений: 22

Requests + bs4, провал постраничного обхода

23.10.2016, 17:13. Показов 2118. Ответов 2

Студворк — интернет-сервис помощи студентам
Доброе время суток.
Есть сайт:
https://www.gabar.org/membersearchresults.cfm
Который дает взять спарсить свою первую страницу поиска, но не пускает на прочие. Есть ли возможность получить данные и как нужно думать чтобы отыскать такую возможность?


Код парсинга/скрапинга:
Кликните здесь для просмотра всего текста
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
from bs4 import BeautifulSoup
import requests
import traceback
 
 
links_to_visit = []
navigation_links = []  # for testing next button
 
base_url = 'https://www.gabar.org'
 
 
def make_soup(link):
    r = requests.get(link)
    soup = BeautifulSoup(r.content, 'html.parser')
    return soup
 
 
def all_results(url):
    global links_to_visit
    global navigation_links
    soup = make_soup(url)
    print(soup)
    div = soup.find('div', {'class': 'cs_control'})
    links = div.find_all('a')
    print(links)
    for link in links:
        try:
            if link.text == 'Next':  # prev, next, new search
                navigation_links.append(link)
                print('got it')
            elif not '/MemberSearchDetail.cfm?ID=' in link.get('href'):
                pass  # I dont need that link
            else:
                links_to_visit.append(link)
        except:
            traceback.print_exc()
    print(len(links_to_visit))
    print(links_to_visit)
    #print(links_to_visit[-1].get('href'))
 
 
def start():
    flag = 1
    page = 1
    while page < 60716:
        flag = 0
        if navigation_links[-1].text == 'Next':
            flag = 1
            next_link = navigation_links[-1]
            #print(next_link.get('href'))
        page += 25
        print(base_url + next_link.get('href'))
        all_results(base_url + next_link.get('href'))
        print('page is:', page)
 
if __name__ == '__main__':
    all_results('https://www.gabar.org/membersearchresults.cfm')
    start()
1
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
23.10.2016, 17:13
Ответы с готовыми решениями:

Requests и bs4 python 3
Всем привет, начала недавно изучать питон и решил поработать с запросами, такой вопрос возник - использую requests для запроса и bs4 для...

Парсинг olx.ua Python+requests+bs4
Пытаясь сделать парсер мобильных телефонов на сайте olx.ua столкнулся с проблемой:при отправке ajax запроса мне выдает вместо корректного...

Парсинг на Python. BeautifulSoup, bs4, requests
Добрый день. Нужна помощь от людей, кто работал с BeautifulSoup на Python. Пытаюсь получить со страницы проверки QR кода на ГосУслугах дату...

2
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
23.10.2016, 20:14
Wohilas, Запустил код, не вижу проблемы. У меня догрузил до 201 страницы и дальше грузил.
1
18 / 18 / 2
Регистрация: 22.09.2015
Сообщений: 22
24.10.2016, 10:00  [ТС]
Там он парсил первую страницу, а затем натыкался на что-то вроде "поисковый запрос оформлен не верно". Просто из-за стилистики кода это не заметно.

Впрочем вопрос был решен.
Если кто-то наткнется, то:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
from bs4 import BeautifulSoup
import requests
import traceback
user_agent = {'User-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 YaBrowser/16.9.1.1192 Yowser/2.5 Safari/537.36'}
 
headers = {'Content-Type': 'application/x-www-form-urlencoded', 'User-Agent': 'Fiddler', 'Host': 'www.gabar.org'}
payload = {'firstName=': '', 'MiddleName=': '', 'LastName=': '', 'Section=': '', 'Company=': '', 'LawSchool=': '',
           'City=': '', 'State=': '', 'Zip=': ''}
 
links_to_visit = set()
navigation_links = []  # for testing next button
 
base_url = 'https://www.gabar.org'
 
#our_r = requests.post('https://www.gabar.org/membersearchresults.cfm', headers=headers, params=payload)
#print(our_r.content)
 
link = 'https://www.gabar.org/membersearchresults.cfm'
s = requests.Session()
def make_soup(link):
    r = s.get(link, headers=headers, cookies={'from-my': 'browser'})
    #our_r = requests.post(link, headers=headers, params=payload)
    soup = BeautifulSoup(r.content, 'html.parser')
    #print(soup)
    print(s.cookies.get_dict())
    return soup
 
 
def all_results(url):
    global links_to_visit
    global navigation_links
    soup = make_soup(url)
    #print(soup)
    div = soup.find('div', {'class': 'cs_control'})
    links = div.find_all('a')
    #print(links)
    for link in links:
        try:
            if link.text == 'Next':  # prev, next, new search
                navigation_links.append(link)
                print('got it')
            elif not '/MemberSearchDetail.cfm?ID=' in link.get('href'):
                pass  # I dont need that link
            else:
                links_to_visit.add(link)
        except:
            traceback.print_exc()
    print(len(links_to_visit))
    print(links_to_visit)
    #print(links_to_visit[-1].get('href'))
 
 
def start():
    flag = 1
    page = 1
    while page < 60716:
        flag = 0
        if navigation_links[-1].text == 'Next':
            flag = 1
            next_link = navigation_links[-1]
            #print(next_link.get('href'))
        page += 25
        print(base_url + next_link.get('href'))
        all_results(base_url + next_link.get('href'))
        print('page is:', page)
 
if __name__ == '__main__':
    all_results(link)
    start()
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
24.10.2016, 10:00
Помогаю со студенческими работами здесь

не получается импортировать скачанные пакеты (bs4,requests и т.д.)
Добрый день. Пользуясь уроками из инета - скачал через pip в cmd различные пакеты - bs4, requests и т.д. , но проблема в том что не...

requests + bs4
Как получить все игры команд с этого турнира (Дату, время и команды)? import requests from bs4 import BeautifulSoup as BS link...

Добавил модуль requests в Visual Studio, но import requests подсвечен зеленым
Добавил модуль requests в Visual Studio, но import requests подсвечен зеленым. Как исправить?

Использование по import requests. ImportError: No module named requests
Приветствую, начну с того, что я самый новый новичек и код который написан ниже это 1й скрипт после helloworld. Итак. Я нашел на...

Requests requests.exceptions.ProxyError
Ошибка: requests.exceptions.ProxyError: HTTPSConnectionPool(host='uchim.org', port=443): Max retries exceeded with url:...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Опции темы

Новые блоги и статьи
Символьное дифференцирование
igorrr37 13.02.2026
/ * Логарифм записывается как: (x-2)log(x^2+2) - означает логарифм (x^2+2) по основанию (x-2). Унарный минус обозначается как ! */ #include <iostream> #include <stack> #include <cctype>. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru