Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/6: Рейтинг темы: голосов - 6, средняя оценка - 4.67
6 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398

парсинг сайта

03.06.2017, 01:22. Показов 1386. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем доброй ночи, вопрос следующий.
Есть сайт, с него получаю таблицу вида, но в excel выгружаю без шапки
Oracle 11 SQL
1
id дата тема информация
можно ли как-то вместо указания количества страниц if requests.get(url) == 404 or number_of_page == 1:
задать условия только по дате, т.е. столбец дата, т.е. input (введите период

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
# coding=<utf-8>
import xlsxwriter
import requests
from bs4 import BeautifulSoup
 
number_of_page = 0
row = 0
col = 0
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:45.0) Gecko/20100101 Firefox/45.0'}
 
 
# def amount_of_pages():
#     num_of_page, amount_of_page = 0, 0
#     while True:
#         num_of_page += 1
#         url = '' % num_of_page
#         req = requests.get(url)
#         req.headers.update(headers)
#         if req.status_code == 200:
#             amount_of_page += 1
#         else:
#             break
#     return amount_of_page
# fin_amount_of_pgs = amount_of_pages()
print ("Мы начинаем")
 
excel_book = xlsxwriter.Workbook('data.xlsx')
work_sheet = excel_book.add_worksheet()
print ("Данные будут загружены в текущую директорию. Имя файла data.xlsx")
print ("Поиск страницы и подтверждение соединения")
while True:
    number_of_page += 1
    url = '' % number_of_page
    r = requests.get(url, timeout=10.000)
    r.headers.update(headers)
    html = r.text
    soup = BeautifulSoup(html, 'html.parser')
    block_with_comments = soup.find_all('article', {'class': "responses__item"})
    for comment in block_with_comments:
            comment_link = comment.find('a', {'class': 'font-size-large font-bold margin-left-xx-small'}).get('href')
            work_sheet.write(row, col, comment_link)
            if (comment.find('time', {'class': 'display-inline-block'}) == None):
                test = soup.find('a', {'href': comment_link + '#comments'})
                testParent = test.parent.parent.find('time', {'class': 'display-inline-block'}).text
            else:
                comment_date = comment.find('time', {'class': 'display-inline-block'}).text
            work_sheet.write(row, col + 1, comment_date)
            comment_theme = comment.find('a', {'class': 'font-size-large font-bold margin-left-xx-small'}).text
            work_sheet.write(row, col + 2, comment_theme)
            if (comment.find('div', {'class': "responses__item__message markup-inside-small markup-inside-small--bullet"}) == None):
                test = soup.find('div', {'class': "responses__item__message markup-inside-small markup-inside-small--bullet"}).text
            else:
                comment_text = comment.find('div', {'class': "responses__item__message markup-inside-small markup-inside-small--bullet"}).text
            work_sheet.write(row, col + 3, comment_text)
            row += 1
    if requests.get(url) == 404 or number_of_page == 1:
        break
excel_book.close()
print("Данные выгружены")
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
03.06.2017, 01:22
Ответы с готовыми решениями:

Парсинг сайта
Добрый день. Возникла проблема с написанием рекурсивного парсинга страниц сайта. Суть такова, написан код, который парсит только...

Парсинг сайта
Всем привет. Пытаюсь получить данные с сайта, flashscore. Конкретно нужно следующее - получить данные с главной страницы о каждом матче,...

Парсинг сайта
Вообщем нужно спарсить сайт https://tarkov-market.com/. Я парсю первые 10 элементов в таблице, но потом нужно подгружать...

4
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
03.06.2017, 06:03
И чего же не хватает тут, что бы ответить на Ваш вопрос...
0
6 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
03.06.2017, 13:45  [ТС]
Jabbson, url?
0
$ su
 Аватар для ntlinuxnt
1605 / 520 / 97
Регистрация: 18.11.2010
Сообщений: 2,807
Записей в блоге: 2
03.06.2017, 14:16
Ну на сайте есть фильтры? Если да то введите данные и проверьте какие запросы они шлют на сервер, заберите запросы и парсите.
0
6 / 6 / 1
Регистрация: 13.12.2015
Сообщений: 398
03.06.2017, 17:49  [ТС]
ntlinuxnt, фильтров нет, только город и все
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
03.06.2017, 17:49
Помогаю со студенческими работами здесь

Парсинг сайта
Добрый день! Я хочу найти все изменения статьи на википедии за определенный период, допустим за 2018 год. Все даты изменений указаны под...

Парсинг сайта
Здравствуйте! Подскажите, пожалуйста, как достать с сайта дату, только, чтобы не всю, а сначало число, потом месяц, и потом год? С помощью...

Парсинг сайта
Добрый день, возник вопрос, нужно спарсить с сайта цены и название товаров, при парсинге берётся только первый div, даже через перебор не...

Парсинг сайта
У меня есть парсер цен AliExpress, он на селениуме, проблема в том что он медленный, хотелось более быстрой работы, bs4 не видит нужные...

Парсинг сайта habr.com
Необходимо парсить страницу со свежими статьями (вот эту) и выбирать те статьи, в которых встречается хотя бы одно из ключевых слов (эти...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru