Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.82/11: Рейтинг темы: голосов - 11, средняя оценка - 4.82
6 / 6 / 0
Регистрация: 23.12.2015
Сообщений: 227

Скрапинг сайта

06.06.2019, 12:30. Показов 2312. Ответов 8

Студворк — интернет-сервис помощи студентам
Доброго времени суток, можете подсказать как реализовать веб-скрапинг сайта ('http://lekvapteke.ru/medicaments/goldlayn')
Пытался так =>

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import requests, bs4
url = 'http://lekvapteke.ru/medicaments/goldlayn'
 
s = requests.get(url)#+nametip+stranica)
 
 
soup=bs4.BeautifulSoup(s.text, "html.parser")
a=soup.body
b=a.find_all('a')
#print(b)
tipotovar = soup.select('.medicaments-content-inner')
p3=soup.select('.mdl-js .container .medicament.price')
#p4=b.select('.container .hidden __web-inspector-hide-shortcut__')
#hz = tipotovar[1].getText()
#price = p3[1].getText()
#ame = p4[1].getText()
 
#print(hz)
print(b)
#print(tipotovar)
Но безуспешно...
В режиме разработчика вижу данные которые хотел получить, но не могу понять как это сделать.
Заранее спасибо!
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
06.06.2019, 12:30
Ответы с готовыми решениями:

Скрапинг телефона
Здравствуйте. Пытаюсь разобраться в данной теме и возникла следующая проблема: хочу вытащить данные для каждой компании из...

Скрапинг в python
Есть код: from bs4 import BeautifulSoup from lxml import html import requests file = open("btc.txt", "r") lines =...

Скрапинг html страницы
Имеется html код такого вида: <input type="hidden" name="token" value="3e2a8f3060996316d028eb1d9e85a519"> Моя задача на...

8
7 / 7 / 3
Регистрация: 21.03.2018
Сообщений: 204
06.06.2019, 12:40
<div class="medicament" ......
Вам парсить надо по этому диву , я так понимаю ?
0
6 / 6 / 0
Регистрация: 23.12.2015
Сообщений: 227
07.06.2019, 11:12  [ТС]
Цитата Сообщение от project2pro Посмотреть сообщение
<div class="medicament" ......
Вам парсить надо по этому диву , я так понимаю ?
Да, только проблема в том что все нужные данные подгружаются через JS и я пока не понимаю как нужно "дернуть" скрипт, что бы он вернул мне нужные данные. (Ну или я все еще не понимаю как это работает )

Добавлено через 5 часов 44 минуты
Может чем поможет, на примере YouTube :
XML
1
2
3
4
5
6
7
8
9
<h3 class="title-and-badge style-scope ytd-video-renderer">
              <ytd-badge-supported-renderer class="style-scope ytd-video-renderer" hidden="" disable-upgrade="">
    
    <dom-repeat id="repeat" as="badge" class="style-scope ytd-badge-supported-renderer"><template is="dom-repeat"></template></dom-repeat>
  </ytd-badge-supported-renderer>
              <a id="video-title" class="yt-simple-endpoint style-scope ytd-video-renderer" title="Guitar Lesson 1 - Absolute Beginner? Start Here! [Free 10 Day Starter Course]" href="/watch?v=BBz-Jyr23M4" aria-label="Guitar Lesson 1 - Absolute Beginner? Start Here! [Free 10 Day Starter Course] Автор: Andy Guitar 2 года назад 16 минут 4&nbsp;125&nbsp;789 просмотров">
                Guitar Lesson 1 - Absolute Beginner? Start Here! [Free 10 Day Starter Course]
              </a>
            </h3>
что бы от сюда получить название =>
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
from selenium import webdriver
 
driver = webdriver.Chrome()
driver.get("http://www.youtube.com/results?search_query=" + "guitar+lessons")
 
results = driver.find_elements_by_xpath('//div[@class="text-wrapper style-scope ytd-video-renderer"]')
 
#print(results)
 
 
for result in results:
    video = result.find_element_by_xpath('.//yt-formatted-string')
    title = video.get_attribute('title')
    #url = video.get_attribute('href')
    print("{} ({})".format(title,'++'))#url))
driver.quit()
Но как вытащить данные из этого куска:
XML
1
2
3
<yt-formatted-string id="description-text" class="style-scope ytd-video-renderer">SUBSCRIBE TO ANDY GUITAR: ►► http://*******/nDtSmJ
Day 1 Lesson notes &amp; help: ►►http://*******/dCv3cP
Watch on Andy Guitar ...</yt-formatted-string>
И в исходной задачи такая же проблема.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
07.06.2019, 20:45
Лучший ответ Сообщение было отмечено maksonech как решение

Решение

Цитата Сообщение от maksonech Посмотреть сообщение
И в исходной задачи такая же проблема.
Это не проблема - это незнание основ.
Цитата Сообщение от maksonech Посмотреть сообщение
не понимаю как нужно "дернуть" скрипт,
Не надо никого "дергать". Есть другие нормальные способы получения динамических данных.

Тот html, который присылает вам сайт действительно состоит из одного javascript и пустых контейнеров. В этом вы должно были убедиться прежде чем начинать бесполезный парсинг того, чего нет.
Ожидать иного в мире динамического веба сейчас некомпетентно: все сайты, где должно отображаться много контента табличного типа так или иначе работают через AJAX и данные передаются с сервера на сайт в виде json.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
>>> import requests
>>> data = requests.get('http://lekvapteke.ru/ajaxget******cieswithmedicamentshortname/goldlayn/0?shown_elements=0')
>>> d = data.json()
>>> from pprint import pprint
>>> pprint(d)
{'analogues_count': '0',
 'analogues_list': [],
 'analogues_list_one_form': [],
 'categories_list': [{'atc': 'A',
                      'title': 'пищеварительный тракт и обмен веществ'},
                     {'atc': 'A08',
                      'title': 'ПРЕПАРАТЫ ДЛЯ ЛЕЧЕНИЯ ОЖИРЕНИЯ, КРОМЕ '
                               'ДИЕТИЧЕСКИХ ПРОДУКТОВ'},
                     {'atc': 'A08A',
                      'title': 'ПРЕПАРАТЫ ДЛЯ ЛЕЧЕНИЯ ОЖИРЕНИЯ, КРОМЕ '
                               'ДИЕТИЧЕСКИХ ПРОДУКТОВ'},
                     {'atc': 'A08AA',
                      'title': 'Препараты для лечения ожирения центрального '
                               'действия'},
                     {'atc': 'A08AA10', 'title': 'Сибутрамин'}],
 'city_id': '2',
 'default_params': {'commentary_id': None,
                    'commentary_name': None,
                    'doza_id': '9',
                    'doza_name': '0,015',
                    'fasovka_id': '35',
                    'fasovka_name': 'N90',
                    'form_full_name': 'Капсулы',
                    'form_id': '1',
                    'form_name': 'Капс',
                    'mnn': 'SIBUTRAMINE',
                    'mnn_alias': 'sibutramine',
                    'mnn_id': '916',
                    'mnn_rus': 'СИБУТРАМИН',
                    'pku': '1',
                    'recept': '0',
                    'tnfull_id': '4392',
                    'tnfull_title': 'ГОЛДЛАЙН 0,015 N90 КАПС',
                    'upakovka_id': None,
                    'upakovka_name': None},
 'description_alias': 'goldlayn-kaps',
 'districts': '6,7,8,9,10,150,146,11,149,12,13,5,14,2',
 'districts_count': '13',
 'elements_count': 7,
 'elements_limit': 100,
 'forms_list': [{'form_full_name': 'Капсулы',
                 'form_id': '1',
                 'form_name': 'Капс'}],
 'params_list': {'commentary': [{'id': None, 'name': None}],
                 'doza': [{'id': '8', 'name': '0,01'},
                          {'id': '9', 'name': '0,015'}],
                 'fasovka': [{'id': '13', 'name': 'N30'},
                             {'id': '1', 'name': 'N60'},
                             {'id': '35', 'name': 'N90'}],
                 'upakovka': [{'id': None, 'name': None}]},
 '******cies': [{'apteka_id': '1065',
                 'apteka_name': 'Аптека от Склада.ру Сервис заказа лекарств',
                 'city': 'Новосибирск',
                 'city_id': '2',
                 'commentary_data': None,
                 'commentary_id': None,
                 'country': 'Россия',
                 'date_end': None,
                 'date_start': None,
                 'discount_description': None,
                 'discount_title': None,
                 'distance': 0,
                 'doza_data': '0,015',
                 'doza_id': '9',
                 'fasovka_data': 'N90',
                 'fasovka_id': '35',
                 'form_data': 'КАПС',
                 'form_id': '1',
                 'id': '54213874184',
                 'is_internetorder': '1',
                 'is_sale': None,
                 'kruglosut': None,
                 'latitude': '55.0301971',
                 'longitude': '82.9204330',
                 'manufactory': 'Изварино Фарма',
                 'metro': '',
                 'mnn': 'SIBUTRAMINE',
                 'mnn_alias': 'sibutramine',
                 'name': 'ГОЛДЛАЙН 0,015 N90 КАПС',
                 'ostanovka': '',
                 'phone': '375-29-17',
                 'price': '3401.30',
                 'price_date': '2019-06-08 00:22:18',
                 'price_no_discount': '3401.30',
                 'raion': 'Новосибирск',
                 'raion_id': '2',
                 'sale_number': None,
                 'sale_type': None,
                 'street': '',
                 'tnfull_id': '4392',
                 'tnshort': 'ГОЛДЛАЙН',
                 'upakovka_data': None,
                 'upakovka_id': None,
                 'url': 'http://apteka-ot-sklada.ru/good?good_id=612373364',
                 'work_time_from': '08:00:00',
                 'work_time_to': '22:00:00'},
                {'apteka_id': '1225',
                 'apteka_name': 'Белая аптека сервис заказа лекарств',
                 'city': 'Новосибирск',
                 'city_id': '2',
                 'commentary_data': None,
                 'commentary_id': None,
                 'country': 'Россия',
                 'date_end': None,
                 'date_start': None,
                 'discount_description': None,
                 'discount_title': None,
                 'doza_data': '0,015',
                 'doza_id': '9',
                 'fasovka_data': 'N90',
                 'fasovka_id': '35',
                 'form_data': 'КАПС',
                 'form_id': '1',
                 'id': '54209173214',
                 'is_internetorder': '1',
                 'is_sale': None,
                 'kruglosut': '1',
                 'latitude': None,
                 'longitude': None,
                 'manufactory': 'ИЗВАРИНО ФАРМА',
                 'metro': None,
                 'mnn': 'SIBUTRAMINE',
                 'mnn_alias': 'sibutramine',
                 'name': 'ГОЛДЛАЙН 0,015 N90 КАПС',
                 'ostanovka': None,
                 'phone': '301-22-22',
                 'price': '3472.00',
                 'price_date': '2019-06-08 00:10:03',
                 'price_no_discount': '3472.00',
                 'raion': 'Новосибирск',
                 'raion_id': '2',
                 'sale_number': None,
                 'sale_type': None,
                 'street': '',
                 'tnfull_id': '4392',
                 'tnshort': 'ГОЛДЛАЙН',
                 'upakovka_data': None,
                 'upakovka_id': None,
                 'url': 'https://xn--80aaabuc9ae2b4a4l.xn--p1ai/catalog/lekarstvennye_preparaty/goldlayn_15mg_90_kaps_izvarino/',
                 'work_time_from': None,
                 'work_time_to': None},
....здесь еще много контента....
2
6 / 6 / 0
Регистрация: 23.12.2015
Сообщений: 227
10.06.2019, 05:40  [ТС]
Цитата Сообщение от Garry Galler Посмотреть сообщение
data = requests.get('http://lekvapteke.ru/ajaxget******cieswithmedicamentshortname/goldlayn/0?shown_elements=0')
Можете объяснить от куда получена-'ajaxget******cieswithmedicamentshortnam e/'
Пытаюсь найти в файлах через "Панель разработчиков", не вижу(мб не внимателен).

И как я понял, в итоге принтом выводится json ?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
10.06.2019, 18:15
Цитата Сообщение от maksonech Посмотреть сообщение
Можете объяснить от куда получена-'ajaxget******cieswithmedicamentshortnam e/'
Ну я далеко не ходил - просто ткнул первый попавшийся XHR (AJAX) запрос, подходящий по названию.

Вкладка Response.

Сам url во вкладке Headers.
1
6 / 6 / 0
Регистрация: 23.12.2015
Сообщений: 227
11.06.2019, 10:20  [ТС]
Цитата Сообщение от Garry Galler Посмотреть сообщение
Ну я далеко не ходил - просто ткнул первый попавшийся XHR (AJAX) запрос, подходящий по названию.
Вложение 1047130
Вкладка Response.
Вложение 1047131
Сам url во вкладке Headers.
Огромное Спасибо!


Можете еще подсказать, как на этой странице =>
XML
1
http://lekvapteke.ru/searchmedicaments?search=%D0%93%D0%B5%D0%BC%D0%B0%D1%82%D0%BE%D0%B3%D0%B5%D0%BD
(Логика такая => будет файл, с названиями товаров, они будут искаться
XML
1
http://lekvapteke.ru/searchmedicaments?search=Товар
, на странице с результатом поиска будет проходиться по всем элементам и получать Json, парситься и записывать результаты в фаил(это уже "сделанно")

Как найти товар, я понял, как получить дальнейшие данные, пока не понимаю.
Миниатюры
Скрапинг сайта  
0
6 / 6 / 0
Регистрация: 23.12.2015
Сообщений: 227
11.06.2019, 12:14  [ТС]
Пытаюсь получить "href" из
XML
1
2
3
<h6><a href="/medicaments/al-ka-prim" class="analogue-link" data-form="65" data-doza="101" data-fasovka="9" data-upakovka="" data-commentary="">АЛЬКА-ПРИМ 0,33 N10 ТАБЛ ШИП</a>
                                                                    <span class="analogue-price">от 239.00</span>
                                                        </h6>
Не могу понять как.
Пытаюсь так =>
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import bs4, requests
url = 'http://lekvapteke.ru/searchmedicaments?search=%D0%90%D1%81%D0%BF%D0%B8%D1%80%D0%B8%D0%BD'
 
s = requests.get(url)#+nametip+stranica)
 
#storage = cgi.FieldStorage()
 
soup=bs4.BeautifulSoup(s.text, "html.parser")
#print(soup)
tipotovar = soup.select('.container .analogues-list ')
#print(tipotovar)
 
p3=soup.select('h6 a')
print(p3[1])
#print(p3[1])
 
#print(tipotovar)
#p4=b.select('.container .hidden __web-inspector-hide-shortcut__')
#hz = tipotovar[1].getText()
#price = p3[2].getText()
#ame = p4[1].getText()
 
#print(price)
0
6 / 6 / 0
Регистрация: 23.12.2015
Сообщений: 227
14.06.2019, 10:47  [ТС]
В конечном итоге решил задачу так =>
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
import  requests,bs4,json
import urllib.parse
from bs4 import BeautifulSoup
from lxml import html
 
 
pool = ['Аспирин', 'Гематоген']
 
#url = 'http://lekvapteke.ru/searchmedicaments?search='+pool
#print(len(pool))
movie_link=[]
count = 0
 
testdict = []
nametovar=[]
for test in pool:
    url = 'http://lekvapteke.ru/searchmedicaments?search=' + pool[count]
    #print(url)
    s = requests.get(url)
    data = s.text
    soup = bs4.BeautifulSoup(s.text, "html.parser")
    #print(soup)
    tt=[]
    t=[]
    coount =0
    e = soup.find('div', {'class': 'analogues-list'}).find_all('a')
    #print(e)
    for g in e :
        #print(g.get('href'))
        t.append(g.get('href'))
        #for col in g.get('href'):
            #print(' ')
 
            #t.append(col)#soup.find('div', {'class': 'analogues-list'}).find('a').get('href'))
        #print(t)
 
        #tt.append(t.find('a').get('href'))
 
        coount+=1
    #print(t)
    #print(coount)
    #print(t)
 
    #movie_link.append(soup.find('div', {'class': 'analogues-list'}).find('a').get('href'))
    #y= soup.find('div', {'class': 'analogues-list'}).find('a').get('href')
    #print(len(y))
    #print(movie_link)
    #e = movie_link[count].split('/')
    count+=1
 
 
#print(movie_link)
    countT = 0
    for nT in t:
    #print(movie_link[0].split('/medicaments/'))
        nametovar.append(t[countT].replace('/medicaments/',''))
 
    #nametovar[countT].strip(' ')
 
        countT += 1
 
    schet = 0
    for tovar in nametovar:
        nameMed = nametovar[schet]
        data = requests.get(
            'http://lekvapteke.ru/ajaxget******cieswithmedicamentshortname/' + nameMed + '/0?shown_elements=0')
        d = data.json()
        y = d["******cies"]
        #print(y)
 
        colvo = len(y)
 
        cooount = 0
 
        for leng in y:
            e = y[cooount]
            aptekaName=e['apteka_name']
            #print(aptekaName)
            street = e['street']
            #print(street)
            name = e["name"]
            #print(name)
            place = e["raion"]
            #print(place)
            price = e["price"]
            city = e["city"]
            #print(city)
            manufactory = str(e["manufactory"])
            #print(type(manufactory))
            ns = '\n'
            '''if name == 'None':
                name = 'xz'
            else:
                continue
            if city=='None':
                city='xz'
            else:
                continue'''
            #print(manufactory)
            if manufactory == 'None':
                manufactory = 'Nt'
                data2 = aptekaName+';'+street+';'+name + ' ;' + price + '; ' + city + '; ' + manufactory + ';'
                testdict.append(data2)
            else:
                data2 = aptekaName+';'+street+';'+name + ' ;' + price + '; ' + city + '; ' + manufactory + ';'
                testdict.append(data2)
 
            cooount += 1
 
 
        schet += 1
 
print()
f = open('testLek2.csv','w')
unikal =[]
countt=0
for index in testdict:
    if index not in unikal:
        unikal.append(index)
 
        print(unikal[countt])
        f.write(unikal[countt]+'\n')
        countt+=1
f.close()
print(unikal[0])
print(len(unikal))
print(countt)
 
 
 
#print(schet)
#print(testdict)
#print(len(testdict))
#print(nametovar)
#print(len(nametovar))
(Вдруг кому понадобится)
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
14.06.2019, 10:47
Помогаю со студенческими работами здесь

Веб-Скрапинг на питоне
Добрый день дорогие форумчане. В универе нам задали создать проект на питоне для итоговой аттестации в семестре. И так, нам нужно...

Скрапинг компаний
Нужно написать скрипт который будет собирать информацию про компинии с города надо название, емейл , url , адресс достаточно города. Есть...

Скрапинг инвентаря CS:GO
Хочу скрапить инвентарь ксго по этому запросу: ...

Скрапинг всех страниц с Jsoup
Добрый день! Данный пример скачивает цену и адрес только с видимой страницы. Как будет выглядеть код, если нужно получить данные со...

Веб скрапинг с использованием selenium
Есть файл с большим кол-вом сайтов,где с каждой первой страницы с надо скачать все картинки. Как доработать скрипт,чтобы для каждого сайта...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru