Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.54/13: Рейтинг темы: голосов - 13, средняя оценка - 4.54
1 / 1 / 0
Регистрация: 05.02.2018
Сообщений: 11

Парсер

25.01.2019, 12:39. Показов 2840. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Сразу скажу, что я новичок в питоне, так что просьба сильно не пинать)

Я пытаюсь написать парсер для одного сайта, и столкнулся вот с чем:
на сайте есть оглавление, выглядит оно вот так
PHP/HTML
1
2
3
4
5
6
7
8
9
10
11
12
13
14
                <ul>
                            <li>
                        <a href="/catalog/1/1/3/r1">Раздел 1</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r2">Раздел 2</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r3">Раздел 3</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r4">Раздел 4</a>
                        </li>
                </ul>
Скрипт должен вытащить ссылки и названия разделов, по ссылкам пройти, а названия вывести. Ранее я привязывался к блокам по их css-классу, но здесь его нет, и как это решить я пока не понял.

P.S. Буду очень благодарен, если подскажете годные книги\ссылки на питон в общем и парсинг на питоне в частности.
1
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
25.01.2019, 12:39
Ответы с готовыми решениями:

парсер
Всем привет. Написал парсер сайта с недвижимостью. Собирает ссылки на страницы, выводит список страниц с ссылками на объявления и ошибка....

Парсер сайтов
Это правда, что Python - лучше всего подходит для парсинга? Хочеться услышать ответ от настоящих - живых Python - программистов! К примеру...

парсер конфигурации
тренируюсь с pygame подскажите плиз удобные парсеры конфига если писали сами и не жалко :) , скиньте плиз пример\ссылку на формат...

5
151 / 86 / 35
Регистрация: 05.08.2017
Сообщений: 257
25.01.2019, 13:32
Лучший ответ Сообщение было отмечено porton как решение

Решение

Цитата Сообщение от porton Посмотреть сообщение
P.S. Буду очень благодарен, если подскажете годные книги\ссылки на питон в общем и парсинг на питоне в частности.
Есть книга web scrapping with python. А так, можно просто читать документацию по библиотеке. Я использую BeautifulSoup4, вот пример решения проблемы:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import re
from bs4 import BeautifulSoup
 
pattern = re.compile(r"/catalog/1/1/3/r+")
html = """
<ul>
    <li>
        <a href="/catalog/1/1/3/r1">Раздел 1</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r2">Раздел 2</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r3">Раздел 3</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r4">Раздел 4</a>
    </li>
</ul>
"""
bs4 = BeautifulSoup(html, "html.parser")
links = bs4.find_all("a", href=pattern)
for links in links:
    print(links["href"])
1
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16
25.01.2019, 13:35
Resistanse, porton, или как вариант, сначала цепляться к вышестоящему див блоку
а затем из него доставать a href
1
151 / 86 / 35
Регистрация: 05.08.2017
Сообщений: 257
25.01.2019, 13:39
IRIP, как вариант да, но я думаю что это менее гибкий вариант
1
1 / 1 / 0
Регистрация: 05.02.2018
Сообщений: 11
25.01.2019, 19:44  [ТС]
Спасибо всем за помощь)
0
Эксперт Python
1356 / 653 / 207
Регистрация: 23.03.2014
Сообщений: 3,057
26.01.2019, 19:37
Направление:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
from builtins import print
import requests
import pygame
import os
import sys
import binascii
from pygame.locals import *
import shutil
import bs4
from bs4 import BeautifulSoup
from urllib.request import urlopen
import time
from smtplib import SMTP_SSL
from email.mime.multipart import MIMEMultipart
from email.mime.base import MIMEBase
from email import  encoders
import lxml.html
import sqlite3
import urllib
url='http://htmlbook.ru/samhtml5/ustarevshie-tegi-i-atributy/'
def get_html(url):
    f = myhtml = urlopen(url)
    sp = BeautifulSoup(myhtml, "html.parser")
    lnk=sp.find_all("span",class_="tag")
    for l in lnk:
        l=str(l)
        l=l.replace('"',' ')
        l=l.replace("<span class= tag >",'')
        l=l.replace('</span>',' ')
        l=l.replace('&gt','')
        l=l.replace('&lt','')
        l=l.replace(';',' ')
        print(l)
 
if __name__ == '__main__':
    get_html(url)
2
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
26.01.2019, 19:37
Помогаю со студенческими работами здесь

Парсер Пайтон v2
И так ребятушки. Не смог найти на просторах инета информацию, пишу снова сюда. Первоначально есть одна страница и на ней есть одна...

Парсер новостей
Здравствуйте, подскажите как получить комментарии к новостям. В списке links находятся ссылки на новость в отдельной вкладке. При пере ...

Парсер на python3
Есть небольшой файл/пример txt/excell, который нужно пропарсить особым образом. В самом файле содержится 3 колонки. На первой строчке...

Парсер odt
Здравствуйте, необходимо написать парсер odt формата и проверять оформление документов. Вопросы: 1. Какие модули стоит использовать? 2....

парсер логов
нужно распарсить лог из файла access.log и получить следующую информацию: 1. Количество пользователей по дням 2. Ранжировать...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Доступность команды формы по условию
Maks 07.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: сделать доступной кнопку (команда формы "ЗавершитьСписание") при. . .
Уведомление о неверно выбранном значении справочника
Maks 06.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "НарядПутевка", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если в документе выбран неверный склад. . .
Установка Qt Creator для C и C++: ставим среду, CMake и MinGW без фреймворка Qt
8Observer8 05.04.2026
Среду разработки Qt Creator можно установить без фреймворка Qt. Есть отдельный репозиторий для этой среды: https:/ / github. com/ qt-creator/ qt-creator, где можно скачать установщик, на вкладке Releases:. . .
AkelPad-скрипты, структуры, и немного лирики..
testuser2 05.04.2026
Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .
Отображение реквизитов в документе по условию и контроль их заполнения
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеСпецтехники", разработанного в конфигурации КА2. Данный документ берёт данные из другого нетипового документа. . .
Фото всей Земли с борта корабля Orion миссии Artemis II
kumehtar 04.04.2026
Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .
Вывод диалогового окна перед закрытием, если документ не проведён
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .
Программный контроль заполнения реквизитов табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: 1. Реализовать контроль заполнения реквизита. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru