Requests + bs4, провал постраничного обхода

@Wohilas · Регистрация: 22.09.2015

Студворк — интернет-сервис помощи студентам

Доброе время суток.
Есть сайт:
https://www.gabar.org/membersearchresults.cfm
Который дает взять спарсить свою первую страницу поиска, но не пускает на прочие. Есть ли возможность получить данные и как нужно думать чтобы отыскать такую возможность?

Код парсинга/скрапинга:

Кликните здесь для просмотра всего текста

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
from bs4 import BeautifulSoup
import requests
import traceback
 
 
links_to_visit = []
navigation_links = []  # for testing next button
 
base_url = 'https://www.gabar.org'
 
 
def make_soup(link):
    r = requests.get(link)
    soup = BeautifulSoup(r.content, 'html.parser')
    return soup
 
 
def all_results(url):
    global links_to_visit
    global navigation_links
    soup = make_soup(url)
    print(soup)
    div = soup.find('div', {'class': 'cs_control'})
    links = div.find_all('a')
    print(links)
    for link in links:
        try:
            if link.text == 'Next':  # prev, next, new search
                navigation_links.append(link)
                print('got it')
            elif not '/MemberSearchDetail.cfm?ID=' in link.get('href'):
                pass  # I dont need that link
            else:
                links_to_visit.append(link)
        except:
            traceback.print_exc()
    print(len(links_to_visit))
    print(links_to_visit)
    #print(links_to_visit[-1].get('href'))
 
 
def start():
    flag = 1
    page = 1
    while page < 60716:
        flag = 0
        if navigation_links[-1].text == 'Next':
            flag = 1
            next_link = navigation_links[-1]
            #print(next_link.get('href'))
        page += 25
        print(base_url + next_link.get('href'))
        all_results(base_url + next_link.get('href'))
        print('page is:', page)
 
if __name__ == '__main__':
    all_results('https://www.gabar.org/membersearchresults.cfm')
    start()

@alex925 · 23.10.2016, 20:14

Wohilas, Запустил код, не вижу проблемы. У меня догрузил до 201 страницы и дальше грузил.

@Wohilas · 24.10.2016, 10:00 **[ТС]**

Там он парсил первую страницу, а затем натыкался на что-то вроде "поисковый запрос оформлен не верно". Просто из-за стилистики кода это не заметно.

Впрочем вопрос был решен.
Если кто-то наткнется, то:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
from bs4 import BeautifulSoup
import requests
import traceback
user_agent = {'User-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 YaBrowser/16.9.1.1192 Yowser/2.5 Safari/537.36'}
 
headers = {'Content-Type': 'application/x-www-form-urlencoded', 'User-Agent': 'Fiddler', 'Host': 'www.gabar.org'}
payload = {'firstName=': '', 'MiddleName=': '', 'LastName=': '', 'Section=': '', 'Company=': '', 'LawSchool=': '',
           'City=': '', 'State=': '', 'Zip=': ''}
 
links_to_visit = set()
navigation_links = []  # for testing next button
 
base_url = 'https://www.gabar.org'
 
#our_r = requests.post('https://www.gabar.org/membersearchresults.cfm', headers=headers, params=payload)
#print(our_r.content)
 
link = 'https://www.gabar.org/membersearchresults.cfm'
s = requests.Session()
def make_soup(link):
    r = s.get(link, headers=headers, cookies={'from-my': 'browser'})
    #our_r = requests.post(link, headers=headers, params=payload)
    soup = BeautifulSoup(r.content, 'html.parser')
    #print(soup)
    print(s.cookies.get_dict())
    return soup
 
 
def all_results(url):
    global links_to_visit
    global navigation_links
    soup = make_soup(url)
    #print(soup)
    div = soup.find('div', {'class': 'cs_control'})
    links = div.find_all('a')
    #print(links)
    for link in links:
        try:
            if link.text == 'Next':  # prev, next, new search
                navigation_links.append(link)
                print('got it')
            elif not '/MemberSearchDetail.cfm?ID=' in link.get('href'):
                pass  # I dont need that link
            else:
                links_to_visit.add(link)
        except:
            traceback.print_exc()
    print(len(links_to_visit))
    print(links_to_visit)
    #print(links_to_visit[-1].get('href'))
 
 
def start():
    flag = 1
    page = 1
    while page < 60716:
        flag = 0
        if navigation_links[-1].text == 'Next':
            flag = 1
            next_link = navigation_links[-1]
            #print(next_link.get('href'))
        page += 25
        print(base_url + next_link.get('href'))
        all_results(base_url + next_link.get('href'))
        print('page is:', page)
 
if __name__ == '__main__':
    all_results(link)
    start()

Новые блоги и статьи Все статьи Все блоги /
Символьное дифференцирование igorrr37 13.02.2026 / * Логарифм записывается как: (x-2)log(x^2+2) - означает логарифм (x^2+2) по основанию (x-2). Унарный минус обозначается как ! */ #include <iostream> #include <stack> #include <cctype>. . .	Камера Toupcam IUA500KMA Eddy_Em 12.02.2026 Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .	И ясному Солнцу zbw 12.02.2026 И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.	«Знание-Сила» zbw 12.02.2026 «Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров 8Observer8 12.02.2026 Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .	SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image) 8Observer8 11.02.2026 Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .	SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image 8Observer8 10.02.2026 Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .	Установка Qt-версии Lazarus IDE в Debian Trixie Xfce volvo 10.02.2026 В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .

@alex925 2742 / 2341 / 620 Регистрация: 19.03.2012 Сообщений: 8,830
	23.10.2016, 20:14
	Wohilas, Запустил код, не вижу проблемы. У меня догрузил до 201 страницы и дальше грузил. 1

Опции темы