Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
 
Рейтинг 4.89/9: Рейтинг темы: голосов - 9, средняя оценка - 4.89
1 / 1 / 0
Регистрация: 05.02.2018
Сообщений: 11
1

Парсер

25.01.2019, 12:39. Просмотров 1727. Ответов 5
Метки нет (Все метки)

Сразу скажу, что я новичок в питоне, так что просьба сильно не пинать)

Я пытаюсь написать парсер для одного сайта, и столкнулся вот с чем:
на сайте есть оглавление, выглядит оно вот так
PHP/HTML
1
2
3
4
5
6
7
8
9
10
11
12
13
14
                <ul>
                            <li>
                        <a href="/catalog/1/1/3/r1">Раздел 1</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r2">Раздел 2</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r3">Раздел 3</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r4">Раздел 4</a>
                        </li>
                </ul>
Скрипт должен вытащить ссылки и названия разделов, по ссылкам пройти, а названия вывести. Ранее я привязывался к блокам по их css-классу, но здесь его нет, и как это решить я пока не понял.

P.S. Буду очень благодарен, если подскажете годные книги\ссылки на питон в общем и парсинг на питоне в частности.
1
Лучшие ответы (1)
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
25.01.2019, 12:39
Ответы с готовыми решениями:

парсер
Пытаюсь написать парсер с выводом в окно tkinter, но в консоль выводит нормально такую строку:...

парсер
Всем привет. Написал парсер сайта с недвижимостью. Собирает ссылки на страницы, выводит список...

Парсер xml
Прошу помочь с парсером xml. Есть XML с такой структурой: &lt;root&gt; &lt;Result RC=&quot;0&quot; /&gt;...

парсер логов
нужно распарсить лог из файла access.log и получить следующую информацию: 1. Количество...

5
148 / 83 / 35
Регистрация: 05.08.2017
Сообщений: 254
25.01.2019, 13:32 2
Лучший ответ Сообщение было отмечено porton как решение

Решение

Цитата Сообщение от porton Посмотреть сообщение
P.S. Буду очень благодарен, если подскажете годные книги\ссылки на питон в общем и парсинг на питоне в частности.
Есть книга web scrapping with python. А так, можно просто читать документацию по библиотеке. Я использую BeautifulSoup4, вот пример решения проблемы:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import re
from bs4 import BeautifulSoup
 
pattern = re.compile(r"/catalog/1/1/3/r+")
html = """
<ul>
    <li>
        <a href="/catalog/1/1/3/r1">Раздел 1</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r2">Раздел 2</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r3">Раздел 3</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r4">Раздел 4</a>
    </li>
</ul>
"""
bs4 = BeautifulSoup(html, "html.parser")
links = bs4.find_all("a", href=pattern)
for links in links:
    print(links["href"])
1
510 / 142 / 27
Регистрация: 18.04.2015
Сообщений: 1,859
Записей в блоге: 14
25.01.2019, 13:35 3
Resistanse, porton, или как вариант, сначала цепляться к вышестоящему див блоку
а затем из него доставать a href
1
148 / 83 / 35
Регистрация: 05.08.2017
Сообщений: 254
25.01.2019, 13:39 4
IRIP, как вариант да, но я думаю что это менее гибкий вариант
1
1 / 1 / 0
Регистрация: 05.02.2018
Сообщений: 11
25.01.2019, 19:44  [ТС] 5
Спасибо всем за помощь)
0
Модератор
Эксперт Python
911 / 296 / 110
Регистрация: 23.03.2014
Сообщений: 1,734
26.01.2019, 19:37 6
Направление:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
from builtins import print
import requests
import pygame
import os
import sys
import binascii
from pygame.locals import *
import shutil
import bs4
from bs4 import BeautifulSoup
from urllib.request import urlopen
import time
from smtplib import SMTP_SSL
from email.mime.multipart import MIMEMultipart
from email.mime.base import MIMEBase
from email import  encoders
import lxml.html
import sqlite3
import urllib
url='http://htmlbook.ru/samhtml5/ustarevshie-tegi-i-atributy/'
def get_html(url):
    f = myhtml = urlopen(url)
    sp = BeautifulSoup(myhtml, "html.parser")
    lnk=sp.find_all("span",class_="tag")
    for l in lnk:
        l=str(l)
        l=l.replace('"',' ')
        l=l.replace("<span class= tag >",'')
        l=l.replace('</span>',' ')
        l=l.replace('&gt','')
        l=l.replace('&lt','')
        l=l.replace(';',' ')
        print(l)
 
if __name__ == '__main__':
    get_html(url)
2
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
26.01.2019, 19:37

Заказываю контрольные, курсовые, дипломные и любые другие студенческие работы здесь.

парсер конфигурации
тренируюсь с pygame подскажите плиз удобные парсеры конфига если писали сами и не жалко :) ,...

Парсер сайтов
Это правда, что Python - лучше всего подходит для парсинга? Хочеться услышать ответ от настоящих -...

Парсер odt
Здравствуйте, необходимо написать парсер odt формата и проверять оформление документов. Вопросы:...

Парсер аргументов
Нужен парсер аргументов и их значений. Строку с параметрами скрипт получает не из командной...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2020, vBulletin Solutions, Inc.