Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/4: Рейтинг темы: голосов - 4, средняя оценка - 5.00
0 / 0 / 0
Регистрация: 13.10.2020
Сообщений: 139

Как спарсить с нескольких страниц?

16.12.2022, 14:26. Показов 859. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Помогите как спарсить с нескольких страниц?
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
result_list = {'title': [], 'description': [], 'date': []}
for page in range(1, 2):
    url = 'https://ssau.ru/news?page='.format(page)
    r = requests.get(url + str(page) + '/')
    html = r.content
    soup = BeautifulSoup(html,'html.parser')
 
    names = soup.findAll(lambda tag: tag.name == 'h5' and tag.get('class') == ['card-title'])
    for name in names:
        result_list['title'].append(name.text)
    infos = soup.findAll('p', class_='card-text mb-2')
    for name in infos:
      result_list['description'].append(name.text)
 
    dates = soup.findAll(lambda tag: tag.name == 'small' and tag.get('class') == ['text-muted'])
    for name in dates:
      result_list['date'].append(name.text)
Ничего не выводит. Что не так?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
16.12.2022, 14:26
Ответы с готовыми решениями:

Как спарсить нужое из нескольких одинаковых тегов и классов
Имеется две строчки с одинаковыми тэгами и классами, как мне нужно найти <b> где "запросы на автопокупку"

Спарсить текст с страниц сайта
Есть ссылки, они записаны в memo. нужно пройтись по каждой и с каждой скопировать текст между определенными "фразами". Фразы...

Спарсить количество страниц на форуме
пишу парсер на данный момент он должен спарсить кол-во страниц на форуме но он выдает уже заданное значение "0" вот я не...

4
2431 / 1474 / 633
Регистрация: 01.11.2021
Сообщений: 2,269
16.12.2022, 15:08
Python
1
2
3
for page in range(1, 2):
    url = f'https://ssau.ru/news?page={page}'
    r = requests.get(url)
и print() в конце добавить.
1
0 / 0 / 0
Регистрация: 13.10.2020
Сообщений: 139
17.12.2022, 10:52  [ТС]
Alexarh, сделала, но всё равно выводит пустые ячейки. Что не так? Помогите пожалуйста
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
result_list = {'title': [], 'description': [], 'date': []}
for page in range(1, 2):
  url = f'https://ssau.ru/news?page={page}'
  r = requests.get(url)
  html = r.content
  soup = BeautifulSoup(html,'html.parser')
  
  names = soup.findAll(lambda tag: tag.name == 'h5' and tag.get('class') == ['card-title'])
  for name in names:
    result_list['title'].append(name.text)
 
 
 
  infos = soup.findAll('p', class_='card-text mb-2')
  for name in infos:
    result_list['description'].append(name.text)
  
  
  
  
  dates = soup.findAll(lambda tag: tag.name == 'small' and tag.get('class') == ['text-muted'])
  for name in dates:
    result_list['date'].append(name.text)
    
  print(result_list)
0
2431 / 1474 / 633
Регистрация: 01.11.2021
Сообщений: 2,269
17.12.2022, 12:12
Ekaterina 12, значит поиск по тегам неправильно сделан где-то. Добавлять просто нечего в словарь.

Добавлено через 4 минуты
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import requests
from bs4 import BeautifulSoup
 
result_list = {'title': [], 'description': [], 'date': []}
for page in range(1, 2):
    url = f'https://ssau.ru/news?page={page}'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:108.0) Gecko/20100101 Firefox/108.0'
    }
 
    r = requests.get(url, headers=headers)
    soup = BeautifulSoup(r.text, 'lxml')
    names = soup.findAll(lambda tag: tag.name == 'h5' and tag.get('class') == ['card-title'])
    for name in names:
        result_list['title'].append(name.text)
 
    infos = soup.findAll('p', class_='card-text mb-2')
    for name in infos:
        result_list['description'].append(name.text)
 
    dates = soup.findAll(lambda tag: tag.name == 'small' and tag.get('class') == ['text-muted'])
    for name in dates:
        result_list['date'].append(name.text)
 
print(result_list)
1
0 / 0 / 0
Регистрация: 13.10.2020
Сообщений: 139
17.12.2022, 12:23  [ТС]
Alexarh, я сначала проверяла отдельно как работает добавление (см. скрин), и добавляет. А когда по страницам идёт, то ничего не добавляет. А что такое "Selenium"?

Всё заработало, спасибо. Строчку забыла закоментить, она всё портила
Миниатюры
Как спарсить с нескольких страниц?  
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
17.12.2022, 12:23
Помогаю со студенческими работами здесь

Спарсить все таблицы со всех страниц сайта
Задача: вытащить все данные со всех имеющихся на сайте таблиц со всех его страниц и сохранить куда угодно, будь-то текстовый файл, буфер...

Объединение нескольких идентичных страниц. Как?
Здравствуйте. Помогите пожалуйста решить одну незатейливую проблему, потому как я почти ноль в этом деле... Вот вобщем её суть: Все мы...

Как сделать защищенную облать из нескольких страниц?
Требуется сделать на сайте защищенную облать из нескольких страниц. Все как обычно, главная страница:логин, пароль, в зависимости от...

Как вместо нескольких страниц сделать одну
Вопрос состоит в следуещем. После розработки информационного сайта (если ето можно так назвать) я стикнулся с проблемой. У меня...

Как убрать из адреса html только у нескольких страниц?
Всем приветы! Подскажите, как убрать суффикс .html только у нескольких страниц. Вот например у меня есть две страницы page.html...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten
8Observer8 27.02.2026
Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru