1 / 1 / 0
Регистрация: 16.09.2020
Сообщений: 47

Как добраться до нужного блока div

14.07.2022, 18:36. Показов 1024. Ответов 6

Студворк — интернет-сервис помощи студентам
Доброго времени суток,
требуется выгрузить наименование всех животных с викепедии ('https://ru.wikipedia.org/wiki/Категория:Животные_по_алфавиту')
есть код :
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
iimport requests
from bs4 import BeautifulSoup
 
url = "https://ru.wikipedia.org/wiki/Категория:Животные_по_алфавиту"
page = requests.get(url).text
animal = []
while True:
    soup = BeautifulSoup(page, 'lxml')
    names = soup.find('div', class_='mw-category-group').find_all('a')
    for name in names:
        animal.append(name.text)
        print(animal)
    links = soup.find('div', id='mw-pages').find_all('a')
    for a in links:
        if a.text == 'Следующая страница':
            url = 'https://ru.wikipedia.org/' + a.get('href')
            page = requests.get(url).text
но из-за того что 'div', class_='mw-category-group' на странице не один код всегда выгружает 'Знаменитые животные по алфавиту'
Подскажите пожалуйста как обратиться к нужному блоку 'div', class_='mw-category-group'
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
14.07.2022, 18:36
Ответы с готовыми решениями:

Как добраться до нужного элемента в массиве
Есть такой массив => Array ( => 2 => 2 => en => en-US ...

Parse XML как добраться до нужного элемента
Добрый день, у меня такой вопрос. Пытаюсь сделать простой парсер. Когда пытаюсь вывести все элементы, все работает, как только пытаюсь...

Как в div загружать страницы из другого блока div?
Здравствуйте. Кто сможет помочь мне в одном вопросе? Как можно загрузить по ссылке страницу из одного блока div в другой блок..то есть...

6
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,678
Записей в блоге: 29
14.07.2022, 18:52
dimka77783, lxml используй
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
from lxml import html
import requests
 
locator = "//div[@id='mw-pages']//a"
url = 'https://ru.wikipedia.org/wiki/Категория:Животные_по_алфавиту'
html_content = requests.get(url, verify=False).text
parsed = html.fromstring(html_content)
animals = parsed.xpath(locator)[1:-1]
print(len(animals))
 
print(animals[0].text)
print(animals[1].text)
print(animals[-1].text)
1
1 / 1 / 0
Регистрация: 16.09.2020
Сообщений: 47
14.07.2022, 19:40  [ТС]
спасибо

Добавлено через 32 минуты
не совсем понял что проиходит в animals = parsed.xpath(locator)[1:-1]
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
14.07.2022, 20:01
Или не используй lxml

Python
1
2
3
4
5
6
page = requests.get(url)
soup = BeautifulSoup(page.text, "html.parser")
animals = soup.select('#mw-pages li')
print(animals[0].text)
print(animals[1].text)
print(animals[-1].text)
1
1 / 1 / 0
Регистрация: 16.09.2020
Сообщений: 47
14.07.2022, 22:08  [ТС]
Завершил код. Собирает всех животных
только не останавливается после того как выдает список всех животных.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import requests
from bs4 import BeautifulSoup
url = 'https://ru.wikipedia.org/wiki/Категория:Животные_по_алфавиту'
an_list = []
while True:
    soup = BeautifulSoup(url, 'lxml')
    page = requests.get(url)
    soup = BeautifulSoup(page.text, "html.parser")
    animals = soup.select('#mw-pages li')
    for i in animals:
        an_list.append(i.text)
    animals2 = soup.find('div', id='mw-pages').find_all('a')
    for a in animals2:
        if a.text == 'Следующая страница':
            url = 'https://ru.wikipedia.org/' + a.get('href')
            page = requests.get(url).text
            break
print(an_list)
0
 Аватар для Semen-Semenich
5226 / 3472 / 1174
Регистрация: 21.03.2016
Сообщений: 8,299
14.07.2022, 22:10
Цитата Сообщение от dimka77783 Посмотреть сообщение
только не останавливается
ну а с чего должен останавливаться? зачем код запихнул в бесконечный цикл?
0
1 / 1 / 0
Регистрация: 16.09.2020
Сообщений: 47
14.07.2022, 22:25  [ТС]
перемудрил, щя подумаю

Добавлено через 9 минут
ну он же должен остановиться когда if a.text == 'Следующая страница': не выполняется (ссылка пропадает на последней странице)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
14.07.2022, 22:25
Помогаю со студенческими работами здесь

Как засунуть 4 блока div в другой div
Есть футер, надо в него засунуть 4 дива, 100% высоты, 3 из них 23% ширины, 4й 31%.... Почему то только 4й див видно слево, а другие нет....

Размещение нескольких блоков div внутри другого блока div
Хочу сделать шапку веб-страницы. Прикреплю ниже небольшую схему того, как она будет выглядеть. Хочу текст разместить в левой части шапки с...

Залипание блока div в html далее содержимого блока
Подскажите пожалуйста, несколько дней не могу найти. Нужно div прилепить к верху после прокрутки страницы, о чтобы он был там приклеен до...

Как получить значение id div блока
Есть див <div id="content2" class="go"> Есть переменная if (t_content == '#content2') { var perem = content1; Как...

Как задать ширину блока div?
Как задать ширину блока див, чтоб она была равна 90% от общей ширины экрана - 320рх (ширина вертикального меню) - 10рх (чтоб был отступ от...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Опции темы

Новые блоги и статьи
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
SDL3 для Web (WebAssembly): Работа со звуком через SDL3_mixer
8Observer8 08.02.2026
Содержание блога Пошагово создадим проект для загрузки звукового файла и воспроизведения звука с помощью библиотеки SDL3_mixer. Звук будет воспроизводиться по клику мышки по холсту на Desktop и по. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru