С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.69/55: Рейтинг темы: голосов - 55, средняя оценка - 4.69
0 / 0 / 0
Регистрация: 03.04.2017
Сообщений: 21

Парсинг названия товара

04.02.2019, 23:20. Показов 10646. Ответов 7

Студворк — интернет-сервис помощи студентам
Доброго всем вечера!
Продолжаю изучать Python, решил попробовать парсинг сайта. В качестве пробы решил вытянуть название любимых макарон с Ozon.
Ссылка: https://www.ozon.ru/context/detail/id/34859476/
Набросал следующих код:
Кликните здесь для просмотра всего текста
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
import requests
from bs4 import BeautifulSoup
 
 
def get_html(url):
    response = requests.get(url)
    response.encoding = 'utf-8'
    return response.text
 
 
def get_data(html):
    return BeautifulSoup(html, 'lxml')\
        .find('div', id='__nuxt')\
        .find('div', id='__layout')\
        .find('div', {'class': 'layout-page desktop'})\
        .find('div', {'class': 'block-vertical'})\
        .find('div', {'class': 'container'})\
        .find('div', {'class': 'detail'})\
        .find('div', {'class': 'top'})\
        .find('div', {'class': 'topBaseColumn'})\
        .find('div', {'class': 'topBaseColumn_top'})\
        .find('div', {'class': 'panel'})\
        .find('h1').text
 
 
def main():
    url = 'https://www.ozon.ru/context/detail/id/34859476/'
 
    print(get_data(get_html(url)))
 
 
if __name__ == "__main__":
    main()


В get_data() дохожу до div класса "container", следующий div класса "detail" найти не удается. Но он есть в структуре страницы.
Кликните здесь для просмотра всего текста
Python
1
2
3
4
5
6
7
8
Traceback (most recent call last):
  File "/home/f1l470v/Projects/exercises_python/parsing/lesson_my_1.py", line 33, in <module>
    main()
  File "/home/f1l470v/Projects/exercises_python/parsing/lesson_my_1.py", line 29, in main
    print(get_data(get_html(url)))
  File "/home/f1l470v/Projects/exercises_python/parsing/lesson_my_1.py", line 18, in get_data
    .find('div', {'class': 'detail'})\
AttributeError: 'NoneType' object has no attribute 'find'


Подскажите, в чем проблема?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
04.02.2019, 23:20
Ответы с готовыми решениями:

Парсинг названия популярных фильмов с сайта kinopoisk
Я попробовал написать программу, для парсинга названия популярных фильмов с сайта kinopoisk, только вот что-то не работает. Я новичок в...

Парсинг названия товара
Есть каталог на сайте. Пишу парсинг названия товаров из каталога. Нужно добыть название &quot;Спортивный костюм Nike&quot;, но не понимаю...

Вывод в форму цены товара автоматически при вводе названия товара
Уважаемые! У меня большая просьба помочь в конкретной задачи: Создаю форму Аццес, При заполнении формы я должен занести наименование...

7
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
04.02.2019, 23:41
Зачем такая длинная вереница селекторов? Стоит одному из них "провалиться" и вы получаете None и падение скрипта.
Селектор должен быть один и перед использованием результата нужно проверить, что он не None или не пустой список.
XPATH для элемента можно даже скопировать из отладчика браузера, а потом подправить, если он чересчур абсолютный.

Цитата Сообщение от alex_filatov Посмотреть сообщение
Но он есть в структуре страницы
С чего вы так решили? Есть большая разница между страницей, которую присылает сервер и страницей, которую отображает браузер. Многие элементы создаются скриптом при рендеринге страницы, и в html коде, который получает requests их просто нет.
1
0 / 0 / 0
Регистрация: 03.04.2017
Сообщений: 21
04.02.2019, 23:49  [ТС]
Цитата Сообщение от Garry Galler Посмотреть сообщение
XPATH для элемента можно даже скопировать из отладчика браузера, а потом подправить, если он чересчур абсолютный.
Где его скопировать я нашел, но я не до конца понимаю, как его использовать. Или его как-то можно скормить BeautifulSoup?
Если не выстраивать лист селекторов как можно достучаться до нужного элемента?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
05.02.2019, 00:02
Вы страницу, которую requests получает пробовали просмотреть?
Она пустая. Там нет ничего, кроме этого.
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
<html>
 
<head>
 
<META NAME="robots" CONTENT="noindex,nofollow">
 
<script src="/_Incapsula_Resource?SWJIYLWA=5074a744e2e3d891814e9a2dace20bd4,719d34d31c8e3a6e6fffd425f7e032f3">
 
</script>
 
<body>
 
</body></html>
Все элементы создаются скриптами при рендеринге браузером, поэтому здесь бесполезно использовать requests, а нужно использовать selenium.

Добавлено через 1 минуту
Цитата Сообщение от alex_filatov Посмотреть сообщение
Если не выстраивать лист селекторов как можно достучаться до нужного элемента?
Написать один селектор в котором есть весь нужный путь сразу. Как к файлу в файловой системе.
1
0 / 0 / 0
Регистрация: 03.04.2017
Сообщений: 21
05.02.2019, 00:13  [ТС]
Цитата Сообщение от Garry Galler Посмотреть сообщение
Она пустая. Там нет ничего, кроме этого.
Проверил, у меня открылась, не могу сказать, в чем проблема.


Мне удалось вычленить название сократив функцию до:
Python
1
2
3
4
def get_data(html):
    return BeautifulSoup(html, 'lxml')\
        .find('div', {'class': 'panel'})\
        .find('h1').text
Это нормально, или возможны проблемы?
А как примерно написать путь xpath в одном селекторе? Мне не удается найти синтаксис(
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
05.02.2019, 00:26
Цитата Сообщение от alex_filatov Посмотреть сообщение
Проверил, у меня открылась,
Вы не там проверяете
Python
1
2
3
4
5
>>> r = requests.get('https://www.ozon.ru/context/detail/id/34859476/')
>>> html = r.text
>>> html
'<html>\r\n<head>\r\n<META NAME="robots" CONTENT="noindex,nofollow">\r\n<script src="/_Incapsula_Resource?SWJIYLWA=5074a744e2e3d891814e9a2dace20bd4,719d34d31c8e3a6e6fffd425f7e032f3">\r\n</script>\r\n<body>\r\n</body></html>'
>>>
Хотя, если вы тоже самое выводите, то странно - у меня там, как видите, ничего нет.

Добавлено через 8 минут
Цитата Сообщение от alex_filatov Посмотреть сообщение
А как примерно написать путь xpath в одном селекторе?
Скопированный XPATH из браузера до заголовка товара:
//*[@id="__layout"]/div/div[1]/div[2]/div/div[2]/div[2]/div[1]/div/h1

Разумеется в таком виде его лучше не использовать, а написать более компактный и менее абсолютный.
Синтаксис XPATH очень гибкий и за один запрос можно получить все, включая даже фильтрацию по тексту и сам текст.
1
 Аватар для m0nte-cr1st0
1043 / 578 / 242
Регистрация: 15.01.2019
Сообщений: 2,178
Записей в блоге: 1
05.02.2019, 04:02
Цитата Сообщение от Garry Galler Посмотреть сообщение
Хотя, если вы тоже самое выводите, то странно - у меня там, как видите, ничего нет.
аналогично
0
0 / 0 / 0
Регистрация: 03.04.2017
Сообщений: 21
05.02.2019, 13:49  [ТС]
Цитата Сообщение от m0nte-cr1st0 Посмотреть сообщение
аналогично
Проверил вчера с домашнего компьютера, все работает:


Сегодня подключился через мобильный интернет - выпадает ошибка. Как я понимаю Ozon блочит парсинг?
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
05.02.2019, 13:49
Помогаю со студенческими работами здесь

дописать слово в названия товара
Привет, подскажите как в Exel можно реализовать подобное: В Документе нужно дописать слово &quot;в наличии&quot; в конце названия товара...

Сотбит. Селектор названия товара указан неверно
Сотбит. Парсер контента. В логе ошибка &quot;Селектор названия товара указан неверно&quot;. Как выявить проблему и решить? В Chrome все...

Как создать модификатор для названия товара
Подскажите как можно создать модификатор на вывод названия товара, который будет применяться на всем сайте? Поясняю: в БД товар храниться...

CMS ставит title из названия товара, а не из пользовательского описания
Всем привет, столкнулся с такой проблемой устанавливаю title для товара но в title на странице отображается только лишь...

Запрос на получение названия самого часто продаваемого товара
Есть 2 таблицы: 1) Товар (КодТовара, Наименование, Описание, ...) 2) Продажа (КодТовара,Количество, ...) Они связаны по коду...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
Учёным и волонтёрам проекта «Einstein@home» удалось обнаружить четыре гамма-лучевых пульсара в джете Млечного Пути
Programma_Boinc 01.01.2026
Учёным и волонтёрам проекта «Einstein@home» удалось обнаружить четыре гамма-лучевых пульсара в джете Млечного Пути Сочетание глобально распределённой вычислительной мощности и инновационных. . .
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru