Парсер

@porton · Регистрация: 05.02.2018

Студворк — интернет-сервис помощи студентам

Сразу скажу, что я новичок в питоне, так что просьба сильно не пинать)

Я пытаюсь написать парсер для одного сайта, и столкнулся вот с чем:
на сайте есть оглавление, выглядит оно вот так

PHP/HTML
1
2
3
4
5
6
7
8
9
10
11
12
13
14
                <ul>
                            <li>
                        <a href="/catalog/1/1/3/r1">Раздел 1</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r2">Раздел 2</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r3">Раздел 3</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r4">Раздел 4</a>
                        </li>
                </ul>

Скрипт должен вытащить ссылки и названия разделов, по ссылкам пройти, а названия вывести. Ранее я привязывался к блокам по их css-классу, но здесь его нет, и как это решить я пока не понял.

P.S. Буду очень благодарен, если подскажете годные книги\ссылки на питон в общем и парсинг на питоне в частности.

@Resistanse · 25.01.2019, 13:32

Сообщение от porton

P.S. Буду очень благодарен, если подскажете годные книги\ссылки на питон в общем и парсинг на питоне в частности.

Есть книга web scrapping with python. А так, можно просто читать документацию по библиотеке. Я использую BeautifulSoup4, вот пример решения проблемы:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import re
from bs4 import BeautifulSoup
 
pattern = re.compile(r"/catalog/1/1/3/r+")
html = """
<ul>
    <li>
        <a href="/catalog/1/1/3/r1">Раздел 1</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r2">Раздел 2</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r3">Раздел 3</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r4">Раздел 4</a>
    </li>
</ul>
"""
bs4 = BeautifulSoup(html, "html.parser")
links = bs4.find_all("a", href=pattern)
for links in links:
    print(links["href"])

@IRIP · 25.01.2019, 13:35

Resistanse, porton, или как вариант, сначала цепляться к вышестоящему див блоку
а затем из него доставать a href

@Resistanse · 25.01.2019, 13:39

IRIP, как вариант да, но я думаю что это менее гибкий вариант

@porton · 25.01.2019, 19:44 **[ТС]**

Спасибо всем за помощь)

@Dax · 26.01.2019, 19:37

Направление:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
from builtins import print
import requests
import pygame
import os
import sys
import binascii
from pygame.locals import *
import shutil
import bs4
from bs4 import BeautifulSoup
from urllib.request import urlopen
import time
from smtplib import SMTP_SSL
from email.mime.multipart import MIMEMultipart
from email.mime.base import MIMEBase
from email import  encoders
import lxml.html
import sqlite3
import urllib
url='http://htmlbook.ru/samhtml5/ustarevshie-tegi-i-atributy/'
def get_html(url):
    f = myhtml = urlopen(url)
    sp = BeautifulSoup(myhtml, "html.parser")
    lnk=sp.find_all("span",class_="tag")
    for l in lnk:
        l=str(l)
        l=l.replace('"',' ')
        l=l.replace("<span class= tag >",'')
        l=l.replace('</span>',' ')
        l=l.replace('&gt','')
        l=l.replace('&lt','')
        l=l.replace(';',' ')
        print(l)
 
if __name__ == '__main__':
    get_html(url)

Новые блоги и статьи Все статьи Все блоги /
Доступность команды формы по условию Maks 07.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: сделать доступной кнопку (команда формы "ЗавершитьСписание") при. . .	Уведомление о неверно выбранном значении справочника Maks 06.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "НарядПутевка", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если в документе выбран неверный склад. . .	Установка Qt Creator для C и C++: ставим среду, CMake и MinGW без фреймворка Qt 8Observer8 05.04.2026 Среду разработки Qt Creator можно установить без фреймворка Qt. Есть отдельный репозиторий для этой среды: https:/ / github. com/ qt-creator/ qt-creator, где можно скачать установщик, на вкладке Releases:. . .	AkelPad-скрипты, структуры, и немного лирики.. testuser2 05.04.2026 Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .
Отображение реквизитов в документе по условию и контроль их заполнения Maks 04.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеСпецтехники", разработанного в конфигурации КА2. Данный документ берёт данные из другого нетипового документа. . .	Фото всей Земли с борта корабля Orion миссии Artemis II kumehtar 04.04.2026 Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .	Вывод диалогового окна перед закрытием, если документ не проведён Maks 04.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .	Программный контроль заполнения реквизитов табличной части документа Maks 02.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: 1. Реализовать контроль заполнения реквизита. . .

@IRIP 514 / 146 / 28 Регистрация: 18.04.2015 Сообщений: 1,904 Записей в блоге: 16
	25.01.2019, 13:35
	Resistanse, porton, или как вариант, сначала цепляться к вышестоящему див блоку а затем из него доставать a href 1

@Resistanse 151 / 86 / 35 Регистрация: 05.08.2017 Сообщений: 257
	25.01.2019, 13:39
	IRIP, как вариант да, но я думаю что это менее гибкий вариант 1

@porton 1 / 1 / 0 Регистрация: 05.02.2018 Сообщений: 11
	25.01.2019, 19:44 [ТС]
	Спасибо всем за помощь) 0

Парсер

Решение