Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.75/4: Рейтинг темы: голосов - 4, средняя оценка - 4.75
0 / 0 / 0
Регистрация: 19.02.2015
Сообщений: 10

Ошибка в цикле обработки страниц в парсере сайта

28.05.2017, 23:37. Показов 838. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Доброго времени суток, уважаемые форумчане, при написании парсера (код ниже) застрял на ошибке - цикл обработки страниц обрабатывает только одну страницу и выводит информацию столько раз, сколько получено страниц при пагинге вместо того чтобы обработать все страницы. Застрял…подскажите пожалуйста где я ошибся:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
 import urllib.request
from bs4 import BeautifulSoup
BASE_URL = "https://bank.gov.ua/control/uk/publish/category?cat_id=55838&page=1"
def get_html(url):
    response = urllib.request.urlopen(url)
    return response.read()
#создаем счетчик страниц:
def get_page_count(html):
    soup = BeautifulSoup(html,'lxml')
    last_link = soup.find('td', class_='nav').find_all('a')[-1:]
    for href in last_link:
        paggination = href.get('href').split('=')
    return int(paggination[-1])
def parse(html):
    soup = BeautifulSoup(html,'lxml')
    table = soup.find('div',class_='announces_block')
    projects = []
    for row in table.find_all('tr')[2:]:
        cols = row.find_all('td')
        projects.append({
            'Date': cols[0].div.get_text().strip(),
            'Announces': cols[0].a.get_text().strip(),
        })
    for project in projects:
        return projects
def main():
    page_count = get_page_count(get_html(BASE_URL))
    print('всего найдено страниц %d'% page_count)
    projects = []
#обрабатываем каждую страницу
    for page in range (1, page_count):
        print ('Парсинг %d%%'%(page/page_count*100))
        projects.extend(parse(get_html(BASE_URL + '?page=%d' % page)))
    for project in projects:
        print(project)
if __name__=='__main__':
    main()
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
28.05.2017, 23:37
Ответы с готовыми решениями:

Ошибка в парсере сайта
Здравствуйте! у меня есть большой вопрос!!! Суть: на VisualStudio2015 написал код, он работает! ------------ Sub Main() ...

Получить содержимое страниц сайта с CefSharp в цикле
Здравствуйте. Есть набор страниц сайта. Нужно с них получить весь html. С помощью простых http-запросов не получается, т.к. там стоит...

Ошибка в цикле обработки сообщений
Здравствуйте! Не очень давно начал изучать делфи. Вчера наткнулся на интересную книжку. В ней показывался шаблог для программы малого...

2
 Аватар для Zuzik
298 / 256 / 57
Регистрация: 11.06.2012
Сообщений: 1,557
29.05.2017, 08:19
У вас в BASE_URL жестко задана первая страница + в строке 33 должно быть
Python
1
projects.extend(parse(get_html(BASE_URL + '&page=%d' % page)))
1
0 / 0 / 0
Регистрация: 19.02.2015
Сообщений: 10
29.05.2017, 21:02  [ТС]
Добавлено через 2 минуты
Огромное спасибо, два вечера смотрел и не мог понять в чем ошибка ))
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
29.05.2017, 21:02
Помогаю со студенческими работами здесь

Ошибка в парсере
Вот код: #!/usr/bin/env python3 import time from urllib.request import urlopen from urllib.parse import urljoin from...

ошибка в парсере
Здравствуйте уважаемые php гуру ! Уже 2 месяца пытаюсь понять что не так в парсере .... Парсер не парсит контент но ссылки не парсит...

Ошибка в парсере
Добрый день, есть парсер, все работает отлично. Надо вытащить ссылку "/news/issue/2017-07-28" из сайта <div...

Ошибка в парсере формулы
Здравствуйте! Помогите понять, где ошибка, пожалуйста... Пишу обозреватель дерева парсера математических формул, вот код самого узла...

На одной из страниц сайта вылезает вот такая ошибка. Как исправить?
На одной из страниц сайте вылезает вот такая ошибка. Как исправить? Код ошибки: if($_SERVER === 'GET' && isset($_GET)){ ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
Горе от ума
kumehtar 07.04.2026
Эта мне ментальная установка, что вот прямо сейчас, мол, мне для полного счастья не хватает (нужное вписать), и когда я этого достигну - тогда и полный кайф. Одна из самых сильных ловушек на пути. . . .
Использование значений реквизитов справочника в документе, с определенными условиями и правами
Maks 07.04.2026
1. Контроль срока действия договора Алгоритм из решения ниже реализован на примере нетипового документа "ЗаявкаНаРаботу", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru