Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.54/13: Рейтинг темы: голосов - 13, средняя оценка - 4.54
1 / 1 / 0
Регистрация: 05.02.2018
Сообщений: 11

Парсер

25.01.2019, 12:39. Показов 2831. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Сразу скажу, что я новичок в питоне, так что просьба сильно не пинать)

Я пытаюсь написать парсер для одного сайта, и столкнулся вот с чем:
на сайте есть оглавление, выглядит оно вот так
PHP/HTML
1
2
3
4
5
6
7
8
9
10
11
12
13
14
                <ul>
                            <li>
                        <a href="/catalog/1/1/3/r1">Раздел 1</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r2">Раздел 2</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r3">Раздел 3</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r4">Раздел 4</a>
                        </li>
                </ul>
Скрипт должен вытащить ссылки и названия разделов, по ссылкам пройти, а названия вывести. Ранее я привязывался к блокам по их css-классу, но здесь его нет, и как это решить я пока не понял.

P.S. Буду очень благодарен, если подскажете годные книги\ссылки на питон в общем и парсинг на питоне в частности.
1
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
25.01.2019, 12:39
Ответы с готовыми решениями:

парсер
Всем привет. Написал парсер сайта с недвижимостью. Собирает ссылки на страницы, выводит список страниц с ссылками на объявления и ошибка....

Парсер сайтов
Это правда, что Python - лучше всего подходит для парсинга? Хочеться услышать ответ от настоящих - живых Python - программистов! К примеру...

парсер конфигурации
тренируюсь с pygame подскажите плиз удобные парсеры конфига если писали сами и не жалко :) , скиньте плиз пример\ссылку на формат...

5
151 / 86 / 35
Регистрация: 05.08.2017
Сообщений: 257
25.01.2019, 13:32
Лучший ответ Сообщение было отмечено porton как решение

Решение

Цитата Сообщение от porton Посмотреть сообщение
P.S. Буду очень благодарен, если подскажете годные книги\ссылки на питон в общем и парсинг на питоне в частности.
Есть книга web scrapping with python. А так, можно просто читать документацию по библиотеке. Я использую BeautifulSoup4, вот пример решения проблемы:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import re
from bs4 import BeautifulSoup
 
pattern = re.compile(r"/catalog/1/1/3/r+")
html = """
<ul>
    <li>
        <a href="/catalog/1/1/3/r1">Раздел 1</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r2">Раздел 2</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r3">Раздел 3</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r4">Раздел 4</a>
    </li>
</ul>
"""
bs4 = BeautifulSoup(html, "html.parser")
links = bs4.find_all("a", href=pattern)
for links in links:
    print(links["href"])
1
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16
25.01.2019, 13:35
Resistanse, porton, или как вариант, сначала цепляться к вышестоящему див блоку
а затем из него доставать a href
1
151 / 86 / 35
Регистрация: 05.08.2017
Сообщений: 257
25.01.2019, 13:39
IRIP, как вариант да, но я думаю что это менее гибкий вариант
1
1 / 1 / 0
Регистрация: 05.02.2018
Сообщений: 11
25.01.2019, 19:44  [ТС]
Спасибо всем за помощь)
0
Эксперт Python
1356 / 653 / 207
Регистрация: 23.03.2014
Сообщений: 3,057
26.01.2019, 19:37
Направление:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
from builtins import print
import requests
import pygame
import os
import sys
import binascii
from pygame.locals import *
import shutil
import bs4
from bs4 import BeautifulSoup
from urllib.request import urlopen
import time
from smtplib import SMTP_SSL
from email.mime.multipart import MIMEMultipart
from email.mime.base import MIMEBase
from email import  encoders
import lxml.html
import sqlite3
import urllib
url='http://htmlbook.ru/samhtml5/ustarevshie-tegi-i-atributy/'
def get_html(url):
    f = myhtml = urlopen(url)
    sp = BeautifulSoup(myhtml, "html.parser")
    lnk=sp.find_all("span",class_="tag")
    for l in lnk:
        l=str(l)
        l=l.replace('"',' ')
        l=l.replace("<span class= tag >",'')
        l=l.replace('</span>',' ')
        l=l.replace('&gt','')
        l=l.replace('&lt','')
        l=l.replace(';',' ')
        print(l)
 
if __name__ == '__main__':
    get_html(url)
2
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
26.01.2019, 19:37
Помогаю со студенческими работами здесь

Парсер Пайтон v2
И так ребятушки. Не смог найти на просторах инета информацию, пишу снова сюда. Первоначально есть одна страница и на ней есть одна...

Парсер новостей
Здравствуйте, подскажите как получить комментарии к новостям. В списке links находятся ссылки на новость в отдельной вкладке. При пере ...

Парсер на python3
Есть небольшой файл/пример txt/excell, который нужно пропарсить особым образом. В самом файле содержится 3 колонки. На первой строчке...

Парсер odt
Здравствуйте, необходимо написать парсер odt формата и проверять оформление документов. Вопросы: 1. Какие модули стоит использовать? 2....

парсер логов
нужно распарсить лог из файла access.log и получить следующую информацию: 1. Количество пользователей по дням 2. Ранжировать...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Символьное дифференцирование
igorrr37 13.02.2026
/ * Программа принимает математическое выражение в виде строки и выдаёт его производную в виде строки и вычисляет значение производной при заданном х Логарифм записывается как: (x-2)log(x^2+2) -. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru