Как спарсить с нескольких страниц?

@Ekaterina 12 · Регистрация: 13.10.2020

Студворк — интернет-сервис помощи студентам

Помогите как спарсить с нескольких страниц?

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
result_list = {'title': [], 'description': [], 'date': []}
for page in range(1, 2):
    url = 'https://ssau.ru/news?page='.format(page)
    r = requests.get(url + str(page) + '/')
    html = r.content
    soup = BeautifulSoup(html,'html.parser')
 
    names = soup.findAll(lambda tag: tag.name == 'h5' and tag.get('class') == ['card-title'])
    for name in names:
        result_list['title'].append(name.text)
    infos = soup.findAll('p', class_='card-text mb-2')
    for name in infos:
      result_list['description'].append(name.text)
 
    dates = soup.findAll(lambda tag: tag.name == 'small' and tag.get('class') == ['text-muted'])
    for name in dates:
      result_list['date'].append(name.text)

Ничего не выводит. Что не так?

@Alexarh · 16.12.2022, 15:08

Python
1
2
3
for page in range(1, 2):
    url = f'https://ssau.ru/news?page={page}'
    r = requests.get(url)

и print() в конце добавить.

@Ekaterina 12 · 17.12.2022, 10:52 **[ТС]**

Alexarh, сделала, но всё равно выводит пустые ячейки. Что не так? Помогите пожалуйста

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
result_list = {'title': [], 'description': [], 'date': []}
for page in range(1, 2):
  url = f'https://ssau.ru/news?page={page}'
  r = requests.get(url)
  html = r.content
  soup = BeautifulSoup(html,'html.parser')
  
  names = soup.findAll(lambda tag: tag.name == 'h5' and tag.get('class') == ['card-title'])
  for name in names:
    result_list['title'].append(name.text)
 
 
 
  infos = soup.findAll('p', class_='card-text mb-2')
  for name in infos:
    result_list['description'].append(name.text)
  
  
  
  
  dates = soup.findAll(lambda tag: tag.name == 'small' and tag.get('class') == ['text-muted'])
  for name in dates:
    result_list['date'].append(name.text)
    
  print(result_list)

@Alexarh · 17.12.2022, 12:12

Ekaterina 12, значит поиск по тегам неправильно сделан где-то. Добавлять просто нечего в словарь.

Добавлено через 4 минуты

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import requests
from bs4 import BeautifulSoup
 
result_list = {'title': [], 'description': [], 'date': []}
for page in range(1, 2):
    url = f'https://ssau.ru/news?page={page}'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:108.0) Gecko/20100101 Firefox/108.0'
    }
 
    r = requests.get(url, headers=headers)
    soup = BeautifulSoup(r.text, 'lxml')
    names = soup.findAll(lambda tag: tag.name == 'h5' and tag.get('class') == ['card-title'])
    for name in names:
        result_list['title'].append(name.text)
 
    infos = soup.findAll('p', class_='card-text mb-2')
    for name in infos:
        result_list['description'].append(name.text)
 
    dates = soup.findAll(lambda tag: tag.name == 'small' and tag.get('class') == ['text-muted'])
    for name in dates:
        result_list['date'].append(name.text)
 
print(result_list)

@Ekaterina 12 · 17.12.2022, 12:23 **[ТС]**

Alexarh, я сначала проверяла отдельно как работает добавление (см. скрин), и добавляет. А когда по страницам идёт, то ничего не добавляет. А что такое "Selenium"?

Всё заработало, спасибо. Строчку забыла закоментить, она всё портила

Новые блоги и статьи Все статьи Все блоги /
Модульная разработка через nuget packages DevAlt 07.03.2026 Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .	Модульный подход на примере F# DevAlt 06.03.2026 В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .	Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование 8Observer8 05.03.2026 Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .	SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D 8Observer8 04.03.2026 Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий 8Observer8 02.03.2026 Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .	Реалии Hrethgir 01.03.2026 Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .	Ритм жизни kumehtar 27.02.2026 Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .	SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten 8Observer8 27.02.2026 Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .

@Ekaterina 12 0 / 0 / 0 Регистрация: 13.10.2020 Сообщений: 139
	17.12.2022, 12:23 [ТС]
	Alexarh, я сначала проверяла отдельно как работает добавление (см. скрин), и добавляет. А когда по страницам идёт, то ничего не добавляет. А что такое "Selenium"? Всё заработало, спасибо. Строчку забыла закоментить, она всё портила Миниатюры 0