Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.82/11: Рейтинг темы: голосов - 11, средняя оценка - 4.82
6 / 6 / 0
Регистрация: 23.12.2015
Сообщений: 227

Скрапинг сайта

06.06.2019, 12:30. Показов 2363. Ответов 8

Студворк — интернет-сервис помощи студентам
Доброго времени суток, можете подсказать как реализовать веб-скрапинг сайта ('http://lekvapteke.ru/medicaments/goldlayn')
Пытался так =>

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import requests, bs4
url = 'http://lekvapteke.ru/medicaments/goldlayn'
 
s = requests.get(url)#+nametip+stranica)
 
 
soup=bs4.BeautifulSoup(s.text, "html.parser")
a=soup.body
b=a.find_all('a')
#print(b)
tipotovar = soup.select('.medicaments-content-inner')
p3=soup.select('.mdl-js .container .medicament.price')
#p4=b.select('.container .hidden __web-inspector-hide-shortcut__')
#hz = tipotovar[1].getText()
#price = p3[1].getText()
#ame = p4[1].getText()
 
#print(hz)
print(b)
#print(tipotovar)
Но безуспешно...
В режиме разработчика вижу данные которые хотел получить, но не могу понять как это сделать.
Заранее спасибо!
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
06.06.2019, 12:30
Ответы с готовыми решениями:

Скрапинг телефона
Здравствуйте. Пытаюсь разобраться в данной теме и возникла следующая проблема: хочу вытащить данные для каждой компании из...

Скрапинг в python
Есть код: from bs4 import BeautifulSoup from lxml import html import requests file = open("btc.txt", "r") lines =...

Скрапинг html страницы
Имеется html код такого вида: <input type="hidden" name="token" value="3e2a8f3060996316d028eb1d9e85a519"> Моя задача на...

8
7 / 7 / 3
Регистрация: 21.03.2018
Сообщений: 204
06.06.2019, 12:40
<div class="medicament" ......
Вам парсить надо по этому диву , я так понимаю ?
0
6 / 6 / 0
Регистрация: 23.12.2015
Сообщений: 227
07.06.2019, 11:12  [ТС]
Цитата Сообщение от project2pro Посмотреть сообщение
<div class="medicament" ......
Вам парсить надо по этому диву , я так понимаю ?
Да, только проблема в том что все нужные данные подгружаются через JS и я пока не понимаю как нужно "дернуть" скрипт, что бы он вернул мне нужные данные. (Ну или я все еще не понимаю как это работает )

Добавлено через 5 часов 44 минуты
Может чем поможет, на примере YouTube :
XML
1
2
3
4
5
6
7
8
9
<h3 class="title-and-badge style-scope ytd-video-renderer">
              <ytd-badge-supported-renderer class="style-scope ytd-video-renderer" hidden="" disable-upgrade="">
    
    <dom-repeat id="repeat" as="badge" class="style-scope ytd-badge-supported-renderer"><template is="dom-repeat"></template></dom-repeat>
  </ytd-badge-supported-renderer>
              <a id="video-title" class="yt-simple-endpoint style-scope ytd-video-renderer" title="Guitar Lesson 1 - Absolute Beginner? Start Here! [Free 10 Day Starter Course]" href="/watch?v=BBz-Jyr23M4" aria-label="Guitar Lesson 1 - Absolute Beginner? Start Here! [Free 10 Day Starter Course] Автор: Andy Guitar 2 года назад 16 минут 4&nbsp;125&nbsp;789 просмотров">
                Guitar Lesson 1 - Absolute Beginner? Start Here! [Free 10 Day Starter Course]
              </a>
            </h3>
что бы от сюда получить название =>
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
from selenium import webdriver
 
driver = webdriver.Chrome()
driver.get("http://www.youtube.com/results?search_query=" + "guitar+lessons")
 
results = driver.find_elements_by_xpath('//div[@class="text-wrapper style-scope ytd-video-renderer"]')
 
#print(results)
 
 
for result in results:
    video = result.find_element_by_xpath('.//yt-formatted-string')
    title = video.get_attribute('title')
    #url = video.get_attribute('href')
    print("{} ({})".format(title,'++'))#url))
driver.quit()
Но как вытащить данные из этого куска:
XML
1
2
3
<yt-formatted-string id="description-text" class="style-scope ytd-video-renderer">SUBSCRIBE TO ANDY GUITAR: ►► http://*******/nDtSmJ
Day 1 Lesson notes &amp; help: ►►http://*******/dCv3cP
Watch on Andy Guitar ...</yt-formatted-string>
И в исходной задачи такая же проблема.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
07.06.2019, 20:45
Лучший ответ Сообщение было отмечено maksonech как решение

Решение

Цитата Сообщение от maksonech Посмотреть сообщение
И в исходной задачи такая же проблема.
Это не проблема - это незнание основ.
Цитата Сообщение от maksonech Посмотреть сообщение
не понимаю как нужно "дернуть" скрипт,
Не надо никого "дергать". Есть другие нормальные способы получения динамических данных.

Тот html, который присылает вам сайт действительно состоит из одного javascript и пустых контейнеров. В этом вы должно были убедиться прежде чем начинать бесполезный парсинг того, чего нет.
Ожидать иного в мире динамического веба сейчас некомпетентно: все сайты, где должно отображаться много контента табличного типа так или иначе работают через AJAX и данные передаются с сервера на сайт в виде json.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
>>> import requests
>>> data = requests.get('http://lekvapteke.ru/ajaxget******cieswithmedicamentshortname/goldlayn/0?shown_elements=0')
>>> d = data.json()
>>> from pprint import pprint
>>> pprint(d)
{'analogues_count': '0',
 'analogues_list': [],
 'analogues_list_one_form': [],
 'categories_list': [{'atc': 'A',
                      'title': 'пищеварительный тракт и обмен веществ'},
                     {'atc': 'A08',
                      'title': 'ПРЕПАРАТЫ ДЛЯ ЛЕЧЕНИЯ ОЖИРЕНИЯ, КРОМЕ '
                               'ДИЕТИЧЕСКИХ ПРОДУКТОВ'},
                     {'atc': 'A08A',
                      'title': 'ПРЕПАРАТЫ ДЛЯ ЛЕЧЕНИЯ ОЖИРЕНИЯ, КРОМЕ '
                               'ДИЕТИЧЕСКИХ ПРОДУКТОВ'},
                     {'atc': 'A08AA',
                      'title': 'Препараты для лечения ожирения центрального '
                               'действия'},
                     {'atc': 'A08AA10', 'title': 'Сибутрамин'}],
 'city_id': '2',
 'default_params': {'commentary_id': None,
                    'commentary_name': None,
                    'doza_id': '9',
                    'doza_name': '0,015',
                    'fasovka_id': '35',
                    'fasovka_name': 'N90',
                    'form_full_name': 'Капсулы',
                    'form_id': '1',
                    'form_name': 'Капс',
                    'mnn': 'SIBUTRAMINE',
                    'mnn_alias': 'sibutramine',
                    'mnn_id': '916',
                    'mnn_rus': 'СИБУТРАМИН',
                    'pku': '1',
                    'recept': '0',
                    'tnfull_id': '4392',
                    'tnfull_title': 'ГОЛДЛАЙН 0,015 N90 КАПС',
                    'upakovka_id': None,
                    'upakovka_name': None},
 'description_alias': 'goldlayn-kaps',
 'districts': '6,7,8,9,10,150,146,11,149,12,13,5,14,2',
 'districts_count': '13',
 'elements_count': 7,
 'elements_limit': 100,
 'forms_list': [{'form_full_name': 'Капсулы',
                 'form_id': '1',
                 'form_name': 'Капс'}],
 'params_list': {'commentary': [{'id': None, 'name': None}],
                 'doza': [{'id': '8', 'name': '0,01'},
                          {'id': '9', 'name': '0,015'}],
                 'fasovka': [{'id': '13', 'name': 'N30'},
                             {'id': '1', 'name': 'N60'},
                             {'id': '35', 'name': 'N90'}],
                 'upakovka': [{'id': None, 'name': None}]},
 '******cies': [{'apteka_id': '1065',
                 'apteka_name': 'Аптека от Склада.ру Сервис заказа лекарств',
                 'city': 'Новосибирск',
                 'city_id': '2',
                 'commentary_data': None,
                 'commentary_id': None,
                 'country': 'Россия',
                 'date_end': None,
                 'date_start': None,
                 'discount_description': None,
                 'discount_title': None,
                 'distance': 0,
                 'doza_data': '0,015',
                 'doza_id': '9',
                 'fasovka_data': 'N90',
                 'fasovka_id': '35',
                 'form_data': 'КАПС',
                 'form_id': '1',
                 'id': '54213874184',
                 'is_internetorder': '1',
                 'is_sale': None,
                 'kruglosut': None,
                 'latitude': '55.0301971',
                 'longitude': '82.9204330',
                 'manufactory': 'Изварино Фарма',
                 'metro': '',
                 'mnn': 'SIBUTRAMINE',
                 'mnn_alias': 'sibutramine',
                 'name': 'ГОЛДЛАЙН 0,015 N90 КАПС',
                 'ostanovka': '',
                 'phone': '375-29-17',
                 'price': '3401.30',
                 'price_date': '2019-06-08 00:22:18',
                 'price_no_discount': '3401.30',
                 'raion': 'Новосибирск',
                 'raion_id': '2',
                 'sale_number': None,
                 'sale_type': None,
                 'street': '',
                 'tnfull_id': '4392',
                 'tnshort': 'ГОЛДЛАЙН',
                 'upakovka_data': None,
                 'upakovka_id': None,
                 'url': 'http://apteka-ot-sklada.ru/good?good_id=612373364',
                 'work_time_from': '08:00:00',
                 'work_time_to': '22:00:00'},
                {'apteka_id': '1225',
                 'apteka_name': 'Белая аптека сервис заказа лекарств',
                 'city': 'Новосибирск',
                 'city_id': '2',
                 'commentary_data': None,
                 'commentary_id': None,
                 'country': 'Россия',
                 'date_end': None,
                 'date_start': None,
                 'discount_description': None,
                 'discount_title': None,
                 'doza_data': '0,015',
                 'doza_id': '9',
                 'fasovka_data': 'N90',
                 'fasovka_id': '35',
                 'form_data': 'КАПС',
                 'form_id': '1',
                 'id': '54209173214',
                 'is_internetorder': '1',
                 'is_sale': None,
                 'kruglosut': '1',
                 'latitude': None,
                 'longitude': None,
                 'manufactory': 'ИЗВАРИНО ФАРМА',
                 'metro': None,
                 'mnn': 'SIBUTRAMINE',
                 'mnn_alias': 'sibutramine',
                 'name': 'ГОЛДЛАЙН 0,015 N90 КАПС',
                 'ostanovka': None,
                 'phone': '301-22-22',
                 'price': '3472.00',
                 'price_date': '2019-06-08 00:10:03',
                 'price_no_discount': '3472.00',
                 'raion': 'Новосибирск',
                 'raion_id': '2',
                 'sale_number': None,
                 'sale_type': None,
                 'street': '',
                 'tnfull_id': '4392',
                 'tnshort': 'ГОЛДЛАЙН',
                 'upakovka_data': None,
                 'upakovka_id': None,
                 'url': 'https://xn--80aaabuc9ae2b4a4l.xn--p1ai/catalog/lekarstvennye_preparaty/goldlayn_15mg_90_kaps_izvarino/',
                 'work_time_from': None,
                 'work_time_to': None},
....здесь еще много контента....
2
6 / 6 / 0
Регистрация: 23.12.2015
Сообщений: 227
10.06.2019, 05:40  [ТС]
Цитата Сообщение от Garry Galler Посмотреть сообщение
data = requests.get('http://lekvapteke.ru/ajaxget******cieswithmedicamentshortname/goldlayn/0?shown_elements=0')
Можете объяснить от куда получена-'ajaxget******cieswithmedicamentshortnam e/'
Пытаюсь найти в файлах через "Панель разработчиков", не вижу(мб не внимателен).

И как я понял, в итоге принтом выводится json ?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
10.06.2019, 18:15
Цитата Сообщение от maksonech Посмотреть сообщение
Можете объяснить от куда получена-'ajaxget******cieswithmedicamentshortnam e/'
Ну я далеко не ходил - просто ткнул первый попавшийся XHR (AJAX) запрос, подходящий по названию.

Вкладка Response.

Сам url во вкладке Headers.
1
6 / 6 / 0
Регистрация: 23.12.2015
Сообщений: 227
11.06.2019, 10:20  [ТС]
Цитата Сообщение от Garry Galler Посмотреть сообщение
Ну я далеко не ходил - просто ткнул первый попавшийся XHR (AJAX) запрос, подходящий по названию.
Вложение 1047130
Вкладка Response.
Вложение 1047131
Сам url во вкладке Headers.
Огромное Спасибо!


Можете еще подсказать, как на этой странице =>
XML
1
http://lekvapteke.ru/searchmedicaments?search=%D0%93%D0%B5%D0%BC%D0%B0%D1%82%D0%BE%D0%B3%D0%B5%D0%BD
(Логика такая => будет файл, с названиями товаров, они будут искаться
XML
1
http://lekvapteke.ru/searchmedicaments?search=Товар
, на странице с результатом поиска будет проходиться по всем элементам и получать Json, парситься и записывать результаты в фаил(это уже "сделанно")

Как найти товар, я понял, как получить дальнейшие данные, пока не понимаю.
Миниатюры
Скрапинг сайта  
0
6 / 6 / 0
Регистрация: 23.12.2015
Сообщений: 227
11.06.2019, 12:14  [ТС]
Пытаюсь получить "href" из
XML
1
2
3
<h6><a href="/medicaments/al-ka-prim" class="analogue-link" data-form="65" data-doza="101" data-fasovka="9" data-upakovka="" data-commentary="">АЛЬКА-ПРИМ 0,33 N10 ТАБЛ ШИП</a>
                                                                    <span class="analogue-price">от 239.00</span>
                                                        </h6>
Не могу понять как.
Пытаюсь так =>
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import bs4, requests
url = 'http://lekvapteke.ru/searchmedicaments?search=%D0%90%D1%81%D0%BF%D0%B8%D1%80%D0%B8%D0%BD'
 
s = requests.get(url)#+nametip+stranica)
 
#storage = cgi.FieldStorage()
 
soup=bs4.BeautifulSoup(s.text, "html.parser")
#print(soup)
tipotovar = soup.select('.container .analogues-list ')
#print(tipotovar)
 
p3=soup.select('h6 a')
print(p3[1])
#print(p3[1])
 
#print(tipotovar)
#p4=b.select('.container .hidden __web-inspector-hide-shortcut__')
#hz = tipotovar[1].getText()
#price = p3[2].getText()
#ame = p4[1].getText()
 
#print(price)
0
6 / 6 / 0
Регистрация: 23.12.2015
Сообщений: 227
14.06.2019, 10:47  [ТС]
В конечном итоге решил задачу так =>
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
import  requests,bs4,json
import urllib.parse
from bs4 import BeautifulSoup
from lxml import html
 
 
pool = ['Аспирин', 'Гематоген']
 
#url = 'http://lekvapteke.ru/searchmedicaments?search='+pool
#print(len(pool))
movie_link=[]
count = 0
 
testdict = []
nametovar=[]
for test in pool:
    url = 'http://lekvapteke.ru/searchmedicaments?search=' + pool[count]
    #print(url)
    s = requests.get(url)
    data = s.text
    soup = bs4.BeautifulSoup(s.text, "html.parser")
    #print(soup)
    tt=[]
    t=[]
    coount =0
    e = soup.find('div', {'class': 'analogues-list'}).find_all('a')
    #print(e)
    for g in e :
        #print(g.get('href'))
        t.append(g.get('href'))
        #for col in g.get('href'):
            #print(' ')
 
            #t.append(col)#soup.find('div', {'class': 'analogues-list'}).find('a').get('href'))
        #print(t)
 
        #tt.append(t.find('a').get('href'))
 
        coount+=1
    #print(t)
    #print(coount)
    #print(t)
 
    #movie_link.append(soup.find('div', {'class': 'analogues-list'}).find('a').get('href'))
    #y= soup.find('div', {'class': 'analogues-list'}).find('a').get('href')
    #print(len(y))
    #print(movie_link)
    #e = movie_link[count].split('/')
    count+=1
 
 
#print(movie_link)
    countT = 0
    for nT in t:
    #print(movie_link[0].split('/medicaments/'))
        nametovar.append(t[countT].replace('/medicaments/',''))
 
    #nametovar[countT].strip(' ')
 
        countT += 1
 
    schet = 0
    for tovar in nametovar:
        nameMed = nametovar[schet]
        data = requests.get(
            'http://lekvapteke.ru/ajaxget******cieswithmedicamentshortname/' + nameMed + '/0?shown_elements=0')
        d = data.json()
        y = d["******cies"]
        #print(y)
 
        colvo = len(y)
 
        cooount = 0
 
        for leng in y:
            e = y[cooount]
            aptekaName=e['apteka_name']
            #print(aptekaName)
            street = e['street']
            #print(street)
            name = e["name"]
            #print(name)
            place = e["raion"]
            #print(place)
            price = e["price"]
            city = e["city"]
            #print(city)
            manufactory = str(e["manufactory"])
            #print(type(manufactory))
            ns = '\n'
            '''if name == 'None':
                name = 'xz'
            else:
                continue
            if city=='None':
                city='xz'
            else:
                continue'''
            #print(manufactory)
            if manufactory == 'None':
                manufactory = 'Nt'
                data2 = aptekaName+';'+street+';'+name + ' ;' + price + '; ' + city + '; ' + manufactory + ';'
                testdict.append(data2)
            else:
                data2 = aptekaName+';'+street+';'+name + ' ;' + price + '; ' + city + '; ' + manufactory + ';'
                testdict.append(data2)
 
            cooount += 1
 
 
        schet += 1
 
print()
f = open('testLek2.csv','w')
unikal =[]
countt=0
for index in testdict:
    if index not in unikal:
        unikal.append(index)
 
        print(unikal[countt])
        f.write(unikal[countt]+'\n')
        countt+=1
f.close()
print(unikal[0])
print(len(unikal))
print(countt)
 
 
 
#print(schet)
#print(testdict)
#print(len(testdict))
#print(nametovar)
#print(len(nametovar))
(Вдруг кому понадобится)
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
14.06.2019, 10:47
Помогаю со студенческими работами здесь

Веб-Скрапинг на питоне
Добрый день дорогие форумчане. В универе нам задали создать проект на питоне для итоговой аттестации в семестре. И так, нам нужно...

Скрапинг компаний
Нужно написать скрипт который будет собирать информацию про компинии с города надо название, емейл , url , адресс достаточно города. Есть...

Скрапинг инвентаря CS:GO
Хочу скрапить инвентарь ксго по этому запросу: ...

Скрапинг всех страниц с Jsoup
Добрый день! Данный пример скачивает цену и адрес только с видимой страницы. Как будет выглядеть код, если нужно получить данные со...

Веб скрапинг с использованием selenium
Есть файл с большим кол-вом сайтов,где с каждой первой страницы с надо скачать все картинки. Как доработать скрипт,чтобы для каждого сайта...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
Уведомление о неверно выбранном значении справочника
Maks 06.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "НарядПутевка", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если в документе выбран неверный склад. . .
Установка Qt Creator для C и C++: ставим среду, CMake и MinGW без фреймворка Qt
8Observer8 05.04.2026
Среду разработки Qt Creator можно установить без фреймворка Qt. Есть отдельный репозиторий для этой среды: https:/ / github. com/ qt-creator/ qt-creator, где можно скачать установщик, на вкладке Releases:. . .
AkelPad-скрипты, структуры, и немного лирики..
testuser2 05.04.2026
Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .
Отображение реквизитов в документе по условию и контроль их заполнения
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеСпецтехники", разработанного в конфигурации КА2. Данный документ берёт данные из другого нетипового документа. . .
Фото всей Земли с борта корабля Orion миссии Artemis II
kumehtar 04.04.2026
Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .
Вывод диалогового окна перед закрытием, если документ не проведён
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .
Программный контроль заполнения реквизитов табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: 1. Реализовать контроль заполнения реквизита. . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru