Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.54/13: Рейтинг темы: голосов - 13, средняя оценка - 4.54
1 / 1 / 0
Регистрация: 05.02.2018
Сообщений: 11

Парсер

25.01.2019, 12:39. Показов 2813. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Сразу скажу, что я новичок в питоне, так что просьба сильно не пинать)

Я пытаюсь написать парсер для одного сайта, и столкнулся вот с чем:
на сайте есть оглавление, выглядит оно вот так
PHP/HTML
1
2
3
4
5
6
7
8
9
10
11
12
13
14
                <ul>
                            <li>
                        <a href="/catalog/1/1/3/r1">Раздел 1</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r2">Раздел 2</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r3">Раздел 3</a>
                        </li>
                            <li>
                        <a href="/catalog/1/1/3/r4">Раздел 4</a>
                        </li>
                </ul>
Скрипт должен вытащить ссылки и названия разделов, по ссылкам пройти, а названия вывести. Ранее я привязывался к блокам по их css-классу, но здесь его нет, и как это решить я пока не понял.

P.S. Буду очень благодарен, если подскажете годные книги\ссылки на питон в общем и парсинг на питоне в частности.
1
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
25.01.2019, 12:39
Ответы с готовыми решениями:

парсер
Всем привет. Написал парсер сайта с недвижимостью. Собирает ссылки на страницы, выводит список страниц с ссылками на объявления и ошибка....

Парсер сайтов
Это правда, что Python - лучше всего подходит для парсинга? Хочеться услышать ответ от настоящих - живых Python - программистов! К примеру...

парсер конфигурации
тренируюсь с pygame подскажите плиз удобные парсеры конфига если писали сами и не жалко :) , скиньте плиз пример\ссылку на формат...

5
151 / 86 / 35
Регистрация: 05.08.2017
Сообщений: 257
25.01.2019, 13:32
Лучший ответ Сообщение было отмечено porton как решение

Решение

Цитата Сообщение от porton Посмотреть сообщение
P.S. Буду очень благодарен, если подскажете годные книги\ссылки на питон в общем и парсинг на питоне в частности.
Есть книга web scrapping with python. А так, можно просто читать документацию по библиотеке. Я использую BeautifulSoup4, вот пример решения проблемы:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import re
from bs4 import BeautifulSoup
 
pattern = re.compile(r"/catalog/1/1/3/r+")
html = """
<ul>
    <li>
        <a href="/catalog/1/1/3/r1">Раздел 1</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r2">Раздел 2</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r3">Раздел 3</a>
    </li>
    <li>
        <a href="/catalog/1/1/3/r4">Раздел 4</a>
    </li>
</ul>
"""
bs4 = BeautifulSoup(html, "html.parser")
links = bs4.find_all("a", href=pattern)
for links in links:
    print(links["href"])
1
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16
25.01.2019, 13:35
Resistanse, porton, или как вариант, сначала цепляться к вышестоящему див блоку
а затем из него доставать a href
1
151 / 86 / 35
Регистрация: 05.08.2017
Сообщений: 257
25.01.2019, 13:39
IRIP, как вариант да, но я думаю что это менее гибкий вариант
1
1 / 1 / 0
Регистрация: 05.02.2018
Сообщений: 11
25.01.2019, 19:44  [ТС]
Спасибо всем за помощь)
0
Эксперт Python
1356 / 653 / 207
Регистрация: 23.03.2014
Сообщений: 3,057
26.01.2019, 19:37
Направление:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
from builtins import print
import requests
import pygame
import os
import sys
import binascii
from pygame.locals import *
import shutil
import bs4
from bs4 import BeautifulSoup
from urllib.request import urlopen
import time
from smtplib import SMTP_SSL
from email.mime.multipart import MIMEMultipart
from email.mime.base import MIMEBase
from email import  encoders
import lxml.html
import sqlite3
import urllib
url='http://htmlbook.ru/samhtml5/ustarevshie-tegi-i-atributy/'
def get_html(url):
    f = myhtml = urlopen(url)
    sp = BeautifulSoup(myhtml, "html.parser")
    lnk=sp.find_all("span",class_="tag")
    for l in lnk:
        l=str(l)
        l=l.replace('"',' ')
        l=l.replace("<span class= tag >",'')
        l=l.replace('</span>',' ')
        l=l.replace('&gt','')
        l=l.replace('&lt','')
        l=l.replace(';',' ')
        print(l)
 
if __name__ == '__main__':
    get_html(url)
2
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
26.01.2019, 19:37
Помогаю со студенческими работами здесь

Парсер Пайтон v2
И так ребятушки. Не смог найти на просторах инета информацию, пишу снова сюда. Первоначально есть одна страница и на ней есть одна...

Парсер новостей
Здравствуйте, подскажите как получить комментарии к новостям. В списке links находятся ссылки на новость в отдельной вкладке. При пере ...

Парсер на python3
Есть небольшой файл/пример txt/excell, который нужно пропарсить особым образом. В самом файле содержится 3 колонки. На первой строчке...

Парсер odt
Здравствуйте, необходимо написать парсер odt формата и проверять оформление документов. Вопросы: 1. Какие модули стоит использовать? 2....

парсер логов
нужно распарсить лог из файла access.log и получить следующую информацию: 1. Количество пользователей по дням 2. Ранжировать...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru