Скрапинг сайта

@maksonech · Регистрация: 23.12.2015

Студворк — интернет-сервис помощи студентам

Доброго времени суток, можете подсказать как реализовать веб-скрапинг сайта ('http://lekvapteke.ru/medicaments/goldlayn')
Пытался так =>

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import requests, bs4
url = 'http://lekvapteke.ru/medicaments/goldlayn'
 
s = requests.get(url)#+nametip+stranica)
 
 
soup=bs4.BeautifulSoup(s.text, "html.parser")
a=soup.body
b=a.find_all('a')
#print(b)
tipotovar = soup.select('.medicaments-content-inner')
p3=soup.select('.mdl-js .container .medicament.price')
#p4=b.select('.container .hidden __web-inspector-hide-shortcut__')
#hz = tipotovar[1].getText()
#price = p3[1].getText()
#ame = p4[1].getText()
 
#print(hz)
print(b)
#print(tipotovar)

Но безуспешно...
В режиме разработчика вижу данные которые хотел получить, но не могу понять как это сделать.
Заранее спасибо!

@project2pro · 06.06.2019, 12:40

<div class="medicament" ......
Вам парсить надо по этому диву , я так понимаю ?

@maksonech · 07.06.2019, 11:12 **[ТС]**

Сообщение от project2pro

<div class="medicament" ......
Вам парсить надо по этому диву , я так понимаю ?

Да, только проблема в том что все нужные данные подгружаются через JS и я пока не понимаю как нужно "дернуть" скрипт, что бы он вернул мне нужные данные. (Ну или я все еще не понимаю как это работает )

Добавлено через 5 часов 44 минуты
Может чем поможет, на примере YouTube :

XML
1
2
3
4
5
6
7
8
9
<h3 class="title-and-badge style-scope ytd-video-renderer">
              <ytd-badge-supported-renderer class="style-scope ytd-video-renderer" hidden="" disable-upgrade="">
    
    <dom-repeat id="repeat" as="badge" class="style-scope ytd-badge-supported-renderer"><template is="dom-repeat"></template></dom-repeat>
  </ytd-badge-supported-renderer>
              <a id="video-title" class="yt-simple-endpoint style-scope ytd-video-renderer" title="Guitar Lesson 1 - Absolute Beginner? Start Here! [Free 10 Day Starter Course]" href="/watch?v=BBz-Jyr23M4" aria-label="Guitar Lesson 1 - Absolute Beginner? Start Here! [Free 10 Day Starter Course] Автор: Andy Guitar 2 года назад 16 минут 4&nbsp;125&nbsp;789 просмотров">
                Guitar Lesson 1 - Absolute Beginner? Start Here! [Free 10 Day Starter Course]
              </a>
            </h3>

что бы от сюда получить название =>

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
from selenium import webdriver
 
driver = webdriver.Chrome()
driver.get("http://www.youtube.com/results?search_query=" + "guitar+lessons")
 
results = driver.find_elements_by_xpath('//div[@class="text-wrapper style-scope ytd-video-renderer"]')
 
#print(results)
 
 
for result in results:
    video = result.find_element_by_xpath('.//yt-formatted-string')
    title = video.get_attribute('title')
    #url = video.get_attribute('href')
    print("{} ({})".format(title,'++'))#url))
driver.quit()

Но как вытащить данные из этого куска:

XML
1
2
3
<yt-formatted-string id="description-text" class="style-scope ytd-video-renderer">SUBSCRIBE TO ANDY GUITAR: ►► http://*******/nDtSmJ
Day 1 Lesson notes &amp; help: ►►http://*******/dCv3cP
Watch on Andy Guitar ...</yt-formatted-string>

И в исходной задачи такая же проблема.

@Garry Galler · 07.06.2019, 20:45

Сообщение от maksonech

И в исходной задачи такая же проблема.

Это не проблема - это незнание основ.

Сообщение от maksonech

не понимаю как нужно "дернуть" скрипт,

Не надо никого "дергать". Есть другие нормальные способы получения динамических данных.

Тот html, который присылает вам сайт действительно состоит из одного javascript и пустых контейнеров. В этом вы должно были убедиться прежде чем начинать бесполезный парсинг того, чего нет.
Ожидать иного в мире динамического веба сейчас некомпетентно: все сайты, где должно отображаться много контента табличного типа так или иначе работают через AJAX и данные передаются с сервера на сайт в виде json.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
>>> import requests
>>> data = requests.get('http://lekvapteke.ru/ajaxget******cieswithmedicamentshortname/goldlayn/0?shown_elements=0')
>>> d = data.json()
>>> from pprint import pprint
>>> pprint(d)
{'analogues_count': '0',
 'analogues_list': [],
 'analogues_list_one_form': [],
 'categories_list': [{'atc': 'A',
                      'title': 'пищеварительный тракт и обмен веществ'},
                     {'atc': 'A08',
                      'title': 'ПРЕПАРАТЫ ДЛЯ ЛЕЧЕНИЯ ОЖИРЕНИЯ, КРОМЕ '
                               'ДИЕТИЧЕСКИХ ПРОДУКТОВ'},
                     {'atc': 'A08A',
                      'title': 'ПРЕПАРАТЫ ДЛЯ ЛЕЧЕНИЯ ОЖИРЕНИЯ, КРОМЕ '
                               'ДИЕТИЧЕСКИХ ПРОДУКТОВ'},
                     {'atc': 'A08AA',
                      'title': 'Препараты для лечения ожирения центрального '
                               'действия'},
                     {'atc': 'A08AA10', 'title': 'Сибутрамин'}],
 'city_id': '2',
 'default_params': {'commentary_id': None,
                    'commentary_name': None,
                    'doza_id': '9',
                    'doza_name': '0,015',
                    'fasovka_id': '35',
                    'fasovka_name': 'N90',
                    'form_full_name': 'Капсулы',
                    'form_id': '1',
                    'form_name': 'Капс',
                    'mnn': 'SIBUTRAMINE',
                    'mnn_alias': 'sibutramine',
                    'mnn_id': '916',
                    'mnn_rus': 'СИБУТРАМИН',
                    'pku': '1',
                    'recept': '0',
                    'tnfull_id': '4392',
                    'tnfull_title': 'ГОЛДЛАЙН 0,015 N90 КАПС',
                    'upakovka_id': None,
                    'upakovka_name': None},
 'description_alias': 'goldlayn-kaps',
 'districts': '6,7,8,9,10,150,146,11,149,12,13,5,14,2',
 'districts_count': '13',
 'elements_count': 7,
 'elements_limit': 100,
 'forms_list': [{'form_full_name': 'Капсулы',
                 'form_id': '1',
                 'form_name': 'Капс'}],
 'params_list': {'commentary': [{'id': None, 'name': None}],
                 'doza': [{'id': '8', 'name': '0,01'},
                          {'id': '9', 'name': '0,015'}],
                 'fasovka': [{'id': '13', 'name': 'N30'},
                             {'id': '1', 'name': 'N60'},
                             {'id': '35', 'name': 'N90'}],
                 'upakovka': [{'id': None, 'name': None}]},
 '******cies': [{'apteka_id': '1065',
                 'apteka_name': 'Аптека от Склада.ру Сервис заказа лекарств',
                 'city': 'Новосибирск',
                 'city_id': '2',
                 'commentary_data': None,
                 'commentary_id': None,
                 'country': 'Россия',
                 'date_end': None,
                 'date_start': None,
                 'discount_description': None,
                 'discount_title': None,
                 'distance': 0,
                 'doza_data': '0,015',
                 'doza_id': '9',
                 'fasovka_data': 'N90',
                 'fasovka_id': '35',
                 'form_data': 'КАПС',
                 'form_id': '1',
                 'id': '54213874184',
                 'is_internetorder': '1',
                 'is_sale': None,
                 'kruglosut': None,
                 'latitude': '55.0301971',
                 'longitude': '82.9204330',
                 'manufactory': 'Изварино Фарма',
                 'metro': '',
                 'mnn': 'SIBUTRAMINE',
                 'mnn_alias': 'sibutramine',
                 'name': 'ГОЛДЛАЙН 0,015 N90 КАПС',
                 'ostanovka': '',
                 'phone': '375-29-17',
                 'price': '3401.30',
                 'price_date': '2019-06-08 00:22:18',
                 'price_no_discount': '3401.30',
                 'raion': 'Новосибирск',
                 'raion_id': '2',
                 'sale_number': None,
                 'sale_type': None,
                 'street': '',
                 'tnfull_id': '4392',
                 'tnshort': 'ГОЛДЛАЙН',
                 'upakovka_data': None,
                 'upakovka_id': None,
                 'url': 'http://apteka-ot-sklada.ru/good?good_id=612373364',
                 'work_time_from': '08:00:00',
                 'work_time_to': '22:00:00'},
                {'apteka_id': '1225',
                 'apteka_name': 'Белая аптека сервис заказа лекарств',
                 'city': 'Новосибирск',
                 'city_id': '2',
                 'commentary_data': None,
                 'commentary_id': None,
                 'country': 'Россия',
                 'date_end': None,
                 'date_start': None,
                 'discount_description': None,
                 'discount_title': None,
                 'doza_data': '0,015',
                 'doza_id': '9',
                 'fasovka_data': 'N90',
                 'fasovka_id': '35',
                 'form_data': 'КАПС',
                 'form_id': '1',
                 'id': '54209173214',
                 'is_internetorder': '1',
                 'is_sale': None,
                 'kruglosut': '1',
                 'latitude': None,
                 'longitude': None,
                 'manufactory': 'ИЗВАРИНО ФАРМА',
                 'metro': None,
                 'mnn': 'SIBUTRAMINE',
                 'mnn_alias': 'sibutramine',
                 'name': 'ГОЛДЛАЙН 0,015 N90 КАПС',
                 'ostanovka': None,
                 'phone': '301-22-22',
                 'price': '3472.00',
                 'price_date': '2019-06-08 00:10:03',
                 'price_no_discount': '3472.00',
                 'raion': 'Новосибирск',
                 'raion_id': '2',
                 'sale_number': None,
                 'sale_type': None,
                 'street': '',
                 'tnfull_id': '4392',
                 'tnshort': 'ГОЛДЛАЙН',
                 'upakovka_data': None,
                 'upakovka_id': None,
                 'url': 'https://xn--80aaabuc9ae2b4a4l.xn--p1ai/catalog/lekarstvennye_preparaty/goldlayn_15mg_90_kaps_izvarino/',
                 'work_time_from': None,
                 'work_time_to': None},
....здесь еще много контента....

@maksonech · 10.06.2019, 05:40 **[ТС]**

Сообщение от Garry Galler

data = requests.get('http://lekvapteke.ru/ajaxget******cieswithmedicamentshortname/goldlayn/0?shown_elements=0')

Можете объяснить от куда получена-'ajaxget******cieswithmedicamentshortnam e/'
Пытаюсь найти в файлах через "Панель разработчиков", не вижу(мб не внимателен).

И как я понял, в итоге принтом выводится json ?

@Garry Galler · 10.06.2019, 18:15

Сообщение от maksonech

Можете объяснить от куда получена-'ajaxget******cieswithmedicamentshortnam e/'

Ну я далеко не ходил - просто ткнул первый попавшийся XHR (AJAX) запрос, подходящий по названию.

Вкладка Response.

Сам url во вкладке Headers.

@maksonech · 11.06.2019, 10:20 **[ТС]**

Сообщение от Garry Galler

Ну я далеко не ходил - просто ткнул первый попавшийся XHR (AJAX) запрос, подходящий по названию.
Вложение 1047130
Вкладка Response.
Вложение 1047131
Сам url во вкладке Headers.

Огромное Спасибо!

Можете еще подсказать, как на этой странице =>

XML
1
http://lekvapteke.ru/searchmedicaments?search=%D0%93%D0%B5%D0%BC%D0%B0%D1%82%D0%BE%D0%B3%D0%B5%D0%BD

(Логика такая => будет файл, с названиями товаров, они будут искаться

XML
1
http://lekvapteke.ru/searchmedicaments?search=Товар

, на странице с результатом поиска будет проходиться по всем элементам и получать Json, парситься и записывать результаты в фаил(это уже "сделанно")

Как найти товар, я понял, как получить дальнейшие данные, пока не понимаю.

@maksonech · 11.06.2019, 12:14 **[ТС]**

Пытаюсь получить "href" из

XML
1
2
3
<h6><a href="/medicaments/al-ka-prim" class="analogue-link" data-form="65" data-doza="101" data-fasovka="9" data-upakovka="" data-commentary="">АЛЬКА-ПРИМ 0,33 N10 ТАБЛ ШИП</a>
                                                                    <span class="analogue-price">от 239.00</span>
                                                        </h6>

Не могу понять как.
Пытаюсь так =>

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import bs4, requests
url = 'http://lekvapteke.ru/searchmedicaments?search=%D0%90%D1%81%D0%BF%D0%B8%D1%80%D0%B8%D0%BD'
 
s = requests.get(url)#+nametip+stranica)
 
#storage = cgi.FieldStorage()
 
soup=bs4.BeautifulSoup(s.text, "html.parser")
#print(soup)
tipotovar = soup.select('.container .analogues-list ')
#print(tipotovar)
 
p3=soup.select('h6 a')
print(p3[1])
#print(p3[1])
 
#print(tipotovar)
#p4=b.select('.container .hidden __web-inspector-hide-shortcut__')
#hz = tipotovar[1].getText()
#price = p3[2].getText()
#ame = p4[1].getText()
 
#print(price)

@maksonech · 14.06.2019, 10:47 **[ТС]**

В конечном итоге решил задачу так =>

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
import  requests,bs4,json
import urllib.parse
from bs4 import BeautifulSoup
from lxml import html
 
 
pool = ['Аспирин', 'Гематоген']
 
#url = 'http://lekvapteke.ru/searchmedicaments?search='+pool
#print(len(pool))
movie_link=[]
count = 0
 
testdict = []
nametovar=[]
for test in pool:
    url = 'http://lekvapteke.ru/searchmedicaments?search=' + pool[count]
    #print(url)
    s = requests.get(url)
    data = s.text
    soup = bs4.BeautifulSoup(s.text, "html.parser")
    #print(soup)
    tt=[]
    t=[]
    coount =0
    e = soup.find('div', {'class': 'analogues-list'}).find_all('a')
    #print(e)
    for g in e :
        #print(g.get('href'))
        t.append(g.get('href'))
        #for col in g.get('href'):
            #print(' ')
 
            #t.append(col)#soup.find('div', {'class': 'analogues-list'}).find('a').get('href'))
        #print(t)
 
        #tt.append(t.find('a').get('href'))
 
        coount+=1
    #print(t)
    #print(coount)
    #print(t)
 
    #movie_link.append(soup.find('div', {'class': 'analogues-list'}).find('a').get('href'))
    #y= soup.find('div', {'class': 'analogues-list'}).find('a').get('href')
    #print(len(y))
    #print(movie_link)
    #e = movie_link[count].split('/')
    count+=1
 
 
#print(movie_link)
    countT = 0
    for nT in t:
    #print(movie_link[0].split('/medicaments/'))
        nametovar.append(t[countT].replace('/medicaments/',''))
 
    #nametovar[countT].strip(' ')
 
        countT += 1
 
    schet = 0
    for tovar in nametovar:
        nameMed = nametovar[schet]
        data = requests.get(
            'http://lekvapteke.ru/ajaxget******cieswithmedicamentshortname/' + nameMed + '/0?shown_elements=0')
        d = data.json()
        y = d["******cies"]
        #print(y)
 
        colvo = len(y)
 
        cooount = 0
 
        for leng in y:
            e = y[cooount]
            aptekaName=e['apteka_name']
            #print(aptekaName)
            street = e['street']
            #print(street)
            name = e["name"]
            #print(name)
            place = e["raion"]
            #print(place)
            price = e["price"]
            city = e["city"]
            #print(city)
            manufactory = str(e["manufactory"])
            #print(type(manufactory))
            ns = '\n'
            '''if name == 'None':
                name = 'xz'
            else:
                continue
            if city=='None':
                city='xz'
            else:
                continue'''
            #print(manufactory)
            if manufactory == 'None':
                manufactory = 'Nt'
                data2 = aptekaName+';'+street+';'+name + ' ;' + price + '; ' + city + '; ' + manufactory + ';'
                testdict.append(data2)
            else:
                data2 = aptekaName+';'+street+';'+name + ' ;' + price + '; ' + city + '; ' + manufactory + ';'
                testdict.append(data2)
 
            cooount += 1
 
 
        schet += 1
 
print()
f = open('testLek2.csv','w')
unikal =[]
countt=0
for index in testdict:
    if index not in unikal:
        unikal.append(index)
 
        print(unikal[countt])
        f.write(unikal[countt]+'\n')
        countt+=1
f.close()
print(unikal[0])
print(len(unikal))
print(countt)
 
 
 
#print(schet)
#print(testdict)
#print(len(testdict))
#print(nametovar)
#print(len(nametovar))

(Вдруг кому понадобится)

Новые блоги и статьи Все статьи Все блоги /
Уведомление о неверно выбранном значении справочника Maks 06.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "НарядПутевка", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если в документе выбран неверный склад. . .	Установка Qt Creator для C и C++: ставим среду, CMake и MinGW без фреймворка Qt 8Observer8 05.04.2026 Среду разработки Qt Creator можно установить без фреймворка Qt. Есть отдельный репозиторий для этой среды: https:/ / github. com/ qt-creator/ qt-creator, где можно скачать установщик, на вкладке Releases:. . .	AkelPad-скрипты, структуры, и немного лирики.. testuser2 05.04.2026 Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .	Отображение реквизитов в документе по условию и контроль их заполнения Maks 04.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеСпецтехники", разработанного в конфигурации КА2. Данный документ берёт данные из другого нетипового документа. . .
Фото всей Земли с борта корабля Orion миссии Artemis II kumehtar 04.04.2026 Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .	Вывод диалогового окна перед закрытием, если документ не проведён Maks 04.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .	Программный контроль заполнения реквизитов табличной части документа Maks 02.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: 1. Реализовать контроль заполнения реквизита. . .	wmic не является внутренней или внешней командой Maks 02.04.2026 Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/

@project2pro 7 / 7 / 3 Регистрация: 21.03.2018 Сообщений: 204
	06.06.2019, 12:40
	<div class="medicament" ...... Вам парсить надо по этому диву , я так понимаю ? 0

Скрапинг сайта

Решение