Requests + bs4, провал постраничного обхода

@Wohilas · Регистрация: 22.09.2015

Студворк — интернет-сервис помощи студентам

Доброе время суток.
Есть сайт:
https://www.gabar.org/membersearchresults.cfm
Который дает взять спарсить свою первую страницу поиска, но не пускает на прочие. Есть ли возможность получить данные и как нужно думать чтобы отыскать такую возможность?

Код парсинга/скрапинга:

Кликните здесь для просмотра всего текста

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
from bs4 import BeautifulSoup
import requests
import traceback
 
 
links_to_visit = []
navigation_links = []  # for testing next button
 
base_url = 'https://www.gabar.org'
 
 
def make_soup(link):
    r = requests.get(link)
    soup = BeautifulSoup(r.content, 'html.parser')
    return soup
 
 
def all_results(url):
    global links_to_visit
    global navigation_links
    soup = make_soup(url)
    print(soup)
    div = soup.find('div', {'class': 'cs_control'})
    links = div.find_all('a')
    print(links)
    for link in links:
        try:
            if link.text == 'Next':  # prev, next, new search
                navigation_links.append(link)
                print('got it')
            elif not '/MemberSearchDetail.cfm?ID=' in link.get('href'):
                pass  # I dont need that link
            else:
                links_to_visit.append(link)
        except:
            traceback.print_exc()
    print(len(links_to_visit))
    print(links_to_visit)
    #print(links_to_visit[-1].get('href'))
 
 
def start():
    flag = 1
    page = 1
    while page < 60716:
        flag = 0
        if navigation_links[-1].text == 'Next':
            flag = 1
            next_link = navigation_links[-1]
            #print(next_link.get('href'))
        page += 25
        print(base_url + next_link.get('href'))
        all_results(base_url + next_link.get('href'))
        print('page is:', page)
 
if __name__ == '__main__':
    all_results('https://www.gabar.org/membersearchresults.cfm')
    start()

@alex925 · 23.10.2016, 20:14

Wohilas, Запустил код, не вижу проблемы. У меня догрузил до 201 страницы и дальше грузил.

@Wohilas · 24.10.2016, 10:00 **[ТС]**

Там он парсил первую страницу, а затем натыкался на что-то вроде "поисковый запрос оформлен не верно". Просто из-за стилистики кода это не заметно.

Впрочем вопрос был решен.
Если кто-то наткнется, то:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
from bs4 import BeautifulSoup
import requests
import traceback
user_agent = {'User-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 YaBrowser/16.9.1.1192 Yowser/2.5 Safari/537.36'}
 
headers = {'Content-Type': 'application/x-www-form-urlencoded', 'User-Agent': 'Fiddler', 'Host': 'www.gabar.org'}
payload = {'firstName=': '', 'MiddleName=': '', 'LastName=': '', 'Section=': '', 'Company=': '', 'LawSchool=': '',
           'City=': '', 'State=': '', 'Zip=': ''}
 
links_to_visit = set()
navigation_links = []  # for testing next button
 
base_url = 'https://www.gabar.org'
 
#our_r = requests.post('https://www.gabar.org/membersearchresults.cfm', headers=headers, params=payload)
#print(our_r.content)
 
link = 'https://www.gabar.org/membersearchresults.cfm'
s = requests.Session()
def make_soup(link):
    r = s.get(link, headers=headers, cookies={'from-my': 'browser'})
    #our_r = requests.post(link, headers=headers, params=payload)
    soup = BeautifulSoup(r.content, 'html.parser')
    #print(soup)
    print(s.cookies.get_dict())
    return soup
 
 
def all_results(url):
    global links_to_visit
    global navigation_links
    soup = make_soup(url)
    #print(soup)
    div = soup.find('div', {'class': 'cs_control'})
    links = div.find_all('a')
    #print(links)
    for link in links:
        try:
            if link.text == 'Next':  # prev, next, new search
                navigation_links.append(link)
                print('got it')
            elif not '/MemberSearchDetail.cfm?ID=' in link.get('href'):
                pass  # I dont need that link
            else:
                links_to_visit.add(link)
        except:
            traceback.print_exc()
    print(len(links_to_visit))
    print(links_to_visit)
    #print(links_to_visit[-1].get('href'))
 
 
def start():
    flag = 1
    page = 1
    while page < 60716:
        flag = 0
        if navigation_links[-1].text == 'Next':
            flag = 1
            next_link = navigation_links[-1]
            #print(next_link.get('href'))
        page += 25
        print(base_url + next_link.get('href'))
        all_results(base_url + next_link.get('href'))
        print('page is:', page)
 
if __name__ == '__main__':
    all_results(link)
    start()

Новые блоги и статьи Все статьи Все блоги /
Оттенки серого Argus19 18.03.2026 Оттенки серого Нашёл в интернете 3 прекрасных модуля: Модуль класса открытия диалога открытия/ сохранения файла на Win32 API; Модуль класса быстрого перекодирования цветного изображения в оттенки. . .	SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++ 8Observer8 17.03.2026 Содержание блога Финальные проекты на Си и на C++: finish-rectangles-sdl3-c. zip finish-rectangles-sdl3-cpp. zip	Символические и жёсткие ссылки в Linux. algri14 15.03.2026 Существует два типа ссылок — символические и жёсткие. Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .	[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ФедосеевПавел 14.03.2026 Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
делаю науч статью по влиянию грибов на сукцессию anaschu 13.03.2026 прикрепляю статью	SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++ 8Observer8 10.03.2026 Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:	Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE 8Observer8 10.03.2026 Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .	Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки Neotwalker 08.03.2026 Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .

@alex925 2742 / 2341 / 620 Регистрация: 19.03.2012 Сообщений: 8,830
	23.10.2016, 20:14
	Wohilas, Запустил код, не вижу проблемы. У меня догрузил до 201 страницы и дальше грузил. 1