Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/4: Рейтинг темы: голосов - 4, средняя оценка - 5.00
0 / 0 / 0
Регистрация: 13.10.2020
Сообщений: 139

Как спарсить с нескольких страниц?

16.12.2022, 14:26. Показов 828. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Помогите как спарсить с нескольких страниц?
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
result_list = {'title': [], 'description': [], 'date': []}
for page in range(1, 2):
    url = 'https://ssau.ru/news?page='.format(page)
    r = requests.get(url + str(page) + '/')
    html = r.content
    soup = BeautifulSoup(html,'html.parser')
 
    names = soup.findAll(lambda tag: tag.name == 'h5' and tag.get('class') == ['card-title'])
    for name in names:
        result_list['title'].append(name.text)
    infos = soup.findAll('p', class_='card-text mb-2')
    for name in infos:
      result_list['description'].append(name.text)
 
    dates = soup.findAll(lambda tag: tag.name == 'small' and tag.get('class') == ['text-muted'])
    for name in dates:
      result_list['date'].append(name.text)
Ничего не выводит. Что не так?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
16.12.2022, 14:26
Ответы с готовыми решениями:

Как спарсить нужое из нескольких одинаковых тегов и классов
Имеется две строчки с одинаковыми тэгами и классами, как мне нужно найти <b> где "запросы на автопокупку"

Спарсить текст с страниц сайта
Есть ссылки, они записаны в memo. нужно пройтись по каждой и с каждой скопировать текст между определенными "фразами". Фразы...

Спарсить количество страниц на форуме
пишу парсер на данный момент он должен спарсить кол-во страниц на форуме но он выдает уже заданное значение "0" вот я не...

4
2431 / 1474 / 633
Регистрация: 01.11.2021
Сообщений: 2,269
16.12.2022, 15:08
Python
1
2
3
for page in range(1, 2):
    url = f'https://ssau.ru/news?page={page}'
    r = requests.get(url)
и print() в конце добавить.
1
0 / 0 / 0
Регистрация: 13.10.2020
Сообщений: 139
17.12.2022, 10:52  [ТС]
Alexarh, сделала, но всё равно выводит пустые ячейки. Что не так? Помогите пожалуйста
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
result_list = {'title': [], 'description': [], 'date': []}
for page in range(1, 2):
  url = f'https://ssau.ru/news?page={page}'
  r = requests.get(url)
  html = r.content
  soup = BeautifulSoup(html,'html.parser')
  
  names = soup.findAll(lambda tag: tag.name == 'h5' and tag.get('class') == ['card-title'])
  for name in names:
    result_list['title'].append(name.text)
 
 
 
  infos = soup.findAll('p', class_='card-text mb-2')
  for name in infos:
    result_list['description'].append(name.text)
  
  
  
  
  dates = soup.findAll(lambda tag: tag.name == 'small' and tag.get('class') == ['text-muted'])
  for name in dates:
    result_list['date'].append(name.text)
    
  print(result_list)
0
2431 / 1474 / 633
Регистрация: 01.11.2021
Сообщений: 2,269
17.12.2022, 12:12
Ekaterina 12, значит поиск по тегам неправильно сделан где-то. Добавлять просто нечего в словарь.

Добавлено через 4 минуты
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import requests
from bs4 import BeautifulSoup
 
result_list = {'title': [], 'description': [], 'date': []}
for page in range(1, 2):
    url = f'https://ssau.ru/news?page={page}'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:108.0) Gecko/20100101 Firefox/108.0'
    }
 
    r = requests.get(url, headers=headers)
    soup = BeautifulSoup(r.text, 'lxml')
    names = soup.findAll(lambda tag: tag.name == 'h5' and tag.get('class') == ['card-title'])
    for name in names:
        result_list['title'].append(name.text)
 
    infos = soup.findAll('p', class_='card-text mb-2')
    for name in infos:
        result_list['description'].append(name.text)
 
    dates = soup.findAll(lambda tag: tag.name == 'small' and tag.get('class') == ['text-muted'])
    for name in dates:
        result_list['date'].append(name.text)
 
print(result_list)
1
0 / 0 / 0
Регистрация: 13.10.2020
Сообщений: 139
17.12.2022, 12:23  [ТС]
Alexarh, я сначала проверяла отдельно как работает добавление (см. скрин), и добавляет. А когда по страницам идёт, то ничего не добавляет. А что такое "Selenium"?

Всё заработало, спасибо. Строчку забыла закоментить, она всё портила
Миниатюры
Как спарсить с нескольких страниц?  
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
17.12.2022, 12:23
Помогаю со студенческими работами здесь

Спарсить все таблицы со всех страниц сайта
Задача: вытащить все данные со всех имеющихся на сайте таблиц со всех его страниц и сохранить куда угодно, будь-то текстовый файл, буфер...

Объединение нескольких идентичных страниц. Как?
Здравствуйте. Помогите пожалуйста решить одну незатейливую проблему, потому как я почти ноль в этом деле... Вот вобщем её суть: Все мы...

Как сделать защищенную облать из нескольких страниц?
Требуется сделать на сайте защищенную облать из нескольких страниц. Все как обычно, главная страница:логин, пароль, в зависимости от...

Как вместо нескольких страниц сделать одну
Вопрос состоит в следуещем. После розработки информационного сайта (если ето можно так назвать) я стикнулся с проблемой. У меня...

Как убрать из адреса html только у нескольких страниц?
Всем приветы! Подскажите, как убрать суффикс .html только у нескольких страниц. Вот например у меня есть две страницы page.html...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США. Нашел на реддите интересную статью под названием «Кто-нибудь знает, где получить бесплатный компьютер или. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru