Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.91/11: Рейтинг темы: голосов - 11, средняя оценка - 4.91
0 / 0 / 0
Регистрация: 01.10.2018
Сообщений: 8

Парсинг с Python

22.05.2019, 11:29. Показов 2253. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Подскажите пожалуйста - что делать если классы\id одинаковые во многих блоках, но данные содержащиеся в них разные.
Надо из каждого достать информацию. Тег main и надо чтобы он парсил каждый тэг с одинаковым название
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
import requests, bs4
 
pogoda=requests.get('https://sinoptik.com.ru/%D0%BF%D0%BE%D0%B3%D0%BE%D0%B4%D0%B0-%D0%BC%D0%BE%D1%81%D0%BA%D0%B2%D0%B0')#получение кода web-странцы в html
b=bs4.BeautifulSoup(pogoda.text, "html.parser")#преобразование кода в объект дял парсинг
# select возвращает список всех найденных тегов с заданным селектором
 
p5=b.select('.main .date')
pog_3=p5[0].getText()
 
p6=b.select('.main .month')
pog_4=p6[0].getText()
 
p7=b.select('.main .temperature .min')
pog_1=p7[0].getText()
 
p8=b.select('.main .temperature .max')
pog_2=p8[0].getText()
 
 
print('Дата: '+ pog_3 +' ' + pog_4)
print('Температура: '+ pog_1 + ' ' + pog_2)
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
22.05.2019, 11:29
Ответы с готовыми решениями:

Парсинг на Python (со скриптами JS)
Всем привет! Дали задание спарсить услуги с сайта. Нашел интересную библиотеку BeatifulSoup. Вроде бы все хорошо, все работает как надо....

Парсинг habr в Python
Снова не получается :( Задача - Надо парсить страницу со свежими новостям на https://habr.com/ru/all/ Вам необходимо собирать...

Python парсинг JSON
Парсю файлик networks = json.load(open("json/networks.json")) for item in networks: run_network(item, item, item, appinfo)...

4
 Аватар для m0nte-cr1st0
1043 / 578 / 242
Регистрация: 15.01.2019
Сообщений: 2,178
Записей в блоге: 1
22.05.2019, 11:40
Sheav12, вытаскиваешь список этих тегов, затем в цикле для каждого получаешь текст. По-моему, в bs findAll за это отвечает (точно не скажу, смотри доки).
0
 Аватар для Vigi
641 / 481 / 179
Регистрация: 28.05.2012
Сообщений: 1,419
22.05.2019, 12:03
Цитата Сообщение от Sheav12 Посмотреть сообщение
id одинаковые во многих блоках
Что то новое id всегда было уникальным...
0
Эксперт Python
1356 / 653 / 207
Регистрация: 23.03.2014
Сообщений: 3,057
22.05.2019, 12:19
Пример парсера
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
from builtins import print
import requests
import pygame
import os
import sys
import binascii
from pygame.locals import *
import shutil
import bs4
from bs4 import BeautifulSoup
from urllib.request import urlopen
import time
from smtplib import SMTP_SSL
from email.mime.multipart import MIMEMultipart
from email.mime.base import MIMEBase
from email import  encoders
import lxml.html
import sqlite3
import urllib
url='http://htmlbook.ru/samhtml5/ustarevshie-tegi-i-atributy/'
def get_html(url):
    f = myhtml = urlopen(url)
    sp = BeautifulSoup(myhtml, "html.parser")
    lnk=sp.find_all("span",class_="tag")
    for l in lnk:
        l=str(l)
        l=l.replace('"',' ')
        l=l.replace("<span class= tag >",'')
        l=l.replace('</span>',' ')
        l=l.replace('&gt','')
        l=l.replace('&lt','')
        l=l.replace(';',' ')
        print(l)
 
if __name__ == '__main__':
    get_html(url)
from builtins import print
import requests
import pygame
import os
import sys
import binascii
from pygame.locals import *
import shutil
import bs4
from bs4 import BeautifulSoup
from urllib.request import urlopen
import time
from smtplib import SMTP_SSL
from email.mime.multipart import MIMEMultipart
from email.mime.base import MIMEBase
from email import  encoders
import lxml.html
import sqlite3
import urllib
url='http://htmlbook.ru/samhtml5/ustarevshie-tegi-i-atributy/'
def get_html(url):
    f = myhtml = urlopen(url)
    sp = BeautifulSoup(myhtml, "html.parser")
    lnk=sp.find_all("span",class_="tag")
    for l in lnk:
        l=str(l)
        l=l.replace('"',' ')
        l=l.replace("<span class= tag >",'')
        l=l.replace('</span>',' ')
        l=l.replace('&gt','')
        l=l.replace('&lt','')
        l=l.replace(';',' ')
        print(l)
 
if __name__ == '__main__':
    get_html(url)
0
 Аватар для Vigi
641 / 481 / 179
Регистрация: 28.05.2012
Сообщений: 1,419
22.05.2019, 12:37
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import requests
import requests
from bs4 import BeautifulSoup as bs
 
weather = requests.get('https://sinoptik.com.ru/%D0%BF%D0%BE%D0%B3%D0%BE%D0%B4%D0%B0-'
                       '%D0%BC%D0%BE%D1%81%D0%BA%D0%B2%D0%B0').content  # получение кода web-странцы в html
soup = bs(weather, "html.parser")
response = soup.find('div', {'class': 'tabs'}).find_all('div', {'class': 'main'})
 
for r in response:
    w_date = r.select(".date")[0].getText()
    w_month = r.select(".month")[0].getText()
    w_temp = f'Температура: {r.select(".min")[0].getText()}  {r.select(".max")[0].getText()}'
    print(f'Дата: {w_date} {w_month}')
    print(w_temp)
    print('-' * len(w_temp))
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
22.05.2019, 12:37
Помогаю со студенческими работами здесь

Python 3 парсинг таблицы
получил хтмл страницы: import urllib.request fp =...

Python 2.7 парсинг JSON
В ответ на зарпрос получаю джейсон примерно такой структуры {u'count': 9306, u'offers': , u'tracking_link': u'http://crystal ...

Python парсинг
Привет. Скажите, пожалуйста.. Когда начинаю прогонять по циклу, всегда выводит одну и ту же информацию. В чем проблема?

Парсинг на Python
Дополнить парсер возможность вывода ссылок со всех url, которые попадаются на странице https://docs.python.org/3/library/index.html ...

Парсинг Python
Задача запарсирсить странички обявление страницу в https://krisha.kz/prodazha/kvartiry/ Надо запарсить цену и ссылку. не смог запарсить их ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
Горе от ума
kumehtar 07.04.2026
Эта мне ментальная установка, что вот прямо сейчас, мол, мне для полного счастья не хватает (нужное вписать), и когда я этого достигну - тогда и полный кайф. Одна из самых сильных ловушек на пути. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru