Почему не парсит XPath в яндексе?

@nikki4 · Регистрация: 20.07.2010

Студворк — интернет-сервис помощи студентам

почему-то не парсятся заголовки в результатах поиска яндекса. Может из-за вложенных тегов b?

HTML5
1
<div class="organic__url-text" id="uniq1586064325263788626">Значение слова «<b class="needsclick">запрос</b>» в 7 словарях</div>

ожидал, что выведет следующее:

HTML5
1
Значение слова «<b class="needsclick">запрос</b>» в 7 словарях

написал следующее, вызывает пустой результат.
не понимаю в чем ошибка, вроде бы правильно написал.

Python
1
2
3
4
5
6
7
from requests_html import HTMLSession
session = HTMLSession()
resp = session.get('https://www.yandex.ru/search/?text=запрос')
links = resp.html.xpath("//div[@class='organic__url-text']/text()")
 
print('Заголовки:')
print(links)

@DobroAlex · 06.04.2020, 11:48

nikki4, уверены ли Вы, что Яндекс всегда возвращает одну и ту же страницу? В реквесте не указан user agent и из за этого может измениться построение страницы. Более того, не факт, что Яндекс возвращает одинаковые xpath даже для одного user agent - например, Google постоянно меняет структуру страницы

@Fudthhh · 06.04.2020, 12:12

nikki4, парси проще, получаешь текст html, то что нужно вырезаешь регулярками.

@DobroAlex · 06.04.2020, 12:25

DmFat, главное, не парсить html регулярками

@nikki4 · 06.04.2020, 14:06 **[ТС]**

Сообщение от nikki4

_

страница каждый раз может быть разной - не важно.
просто принцип понять. в учебном примере был гугл. а я попробовал по аналогии для яндекса.
вот там заголовки всегда оборачиваются в класс organic__url-text

разобрался на тестовом примере как получать данные по классу, но почему-то не сработало.

@Garry Galler · 06.04.2020, 14:12

Сообщение от nikki4

но почему-то не сработало.

Ну давай посмотрим как нормальные пацаны парсят.

Python
1
2
3
4
5
6
7
8
9
10
>>> import requests
>>> import lxml.html
>>> url = 'https://www.yandex.ru/search/?text=запрос'
>>> page = requests.get(url)
>>> root = lxml.html.fromstring(page.text)
>>> root.xpath("//div[@class='organic__url-text']")
[<Element div at 0x288dd98>, <Element div at 0x289bc30>, <Element div at 0x289b028>, <Element div at 0x289ba50>, <Element div at 0x289c910>, <Element div at 0x289caf0>, <Element div at 0x289caa0>, <Element div at 0x289cc08>, <Element div at 0x289cbe0>, <Element div at 0x289c230>, <Element div at 0x289c0f0>, <Element div at 0x29065a0>]
>>> root.xpath("//div[@class='organic__url-text']/text()")
['Строительство заборов и ограждений – Яндекс.Услуги', ' — Викисловарь', 'Значение слова ', '. Что такое ', '?', ' — Толковый словарь русского языка Дмитриева', 'Значение слова «', '» в 7 словарях', 'Поисковый ', ' — Толковый словарь Ефремовой', ' что это? Значение слова ', 'Что значит ', ' - Значения слов', 'Значение слова «', '» в 10 онлайн словарях Даль...', 'Слово ', ' - Что такое ', '? - Значения слова...', 'Строительство заборов и ограждений – Яндекс.Услуги']
>>>

@nikki4 · 06.04.2020, 14:42 **[ТС]**

А почему у меня не работает код выше?

установил lxml:

добавил принты, чтобы посмотреть предварительные результаты:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import requests
import lxml.html
 
url = 'https://www.yandex.ru/search/?text=запрос'
 
page = requests.get(url)
print('page')
print(page)
print(' ')
 
root = lxml.html.fromstring(page.text)
print('root lxml.html:')
print(root)
print(' ')
 
rezult1 = root.xpath("//div[@class='organic__url-text']")
print('root.xpath без text()')
print(rezult1)
print(' ')
 
rezult2 = root.xpath("//div[@class='organic__url-text']/text()")
print('root.xpath с text()')
print(rezult2)

На выходе в pycharm

page
<Response [200]>

root lxml.html:
<Element html at 0x2ddf188>

root.xpath без text()
[]

root.xpath с text()
[]

Process finished with exit code 0

@Garry Galler · 06.04.2020, 14:48

Сообщение от nikki4

А почему у меня не работает код выше?

А версия Python какая?
Вообще, странно. Ищи проблему на своем компе.

Добавлено через 2 минуты
Посмотри, что у тебя в page.text.
Может быть, там, действительно, нет нужных элементов: то есть яндекс тебя принял за бота и ничего не прислал.

@nikki4 · 06.04.2020, 14:53 **[ТС]**

Походу дела яндекс принял меня за бота.
гугл тоже так думал, но тот сразу мне 404 кажется отдавал, вместо 200 в отличие от яндекса.

добавил следующий код и сразу все заработало!

Python
1
2
3
print('page.text')
print(page.text)
print(' ')

убрал - не работает
добавил - опять не работает.
но 1 раз увидел, что работает

Новые блоги и статьи Все статьи Все блоги /
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов. anaschu 08.04.2026 работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ	Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики. Hrethgir 07.04.2026 Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .	Горе от ума kumehtar 07.04.2026 Эта мне ментальная установка, что вот прямо сейчас, мол, мне для полного счастья не хватает (нужное вписать), и когда я этого достигну - тогда и полный кайф. Одна из самых сильных ловушек на пути. . . .	Использование значений реквизитов справочника в документе, с определенными условиями и правами Maks 07.04.2026 1. Контроль срока действия договора Алгоритм из решения ниже реализован на примере нетипового документа "ЗаявкаНаРаботу", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если. . .
Доступность команды формы по условию Maks 07.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: сделать доступной кнопку (команда формы "ЗавершитьСписание") при. . .	Уведомление о неверно выбранном значении справочника Maks 06.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "НарядПутевка", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если в документе выбран неверный склад. . .	Установка Qt Creator для C и C++: ставим среду, CMake и MinGW без фреймворка Qt 8Observer8 05.04.2026 Среду разработки Qt Creator можно установить без фреймворка Qt. Есть отдельный репозиторий для этой среды: https:/ / github. com/ qt-creator/ qt-creator, где можно скачать установщик, на вкладке Releases:. . .	AkelPad-скрипты, структуры, и немного лирики.. testuser2 05.04.2026 Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .

@DobroAlex Заклинатель змей 705 / 560 / 219 Регистрация: 30.04.2016 Сообщений: 2,605
	06.04.2020, 11:48
	nikki4, уверены ли Вы, что Яндекс всегда возвращает одну и ту же страницу? В реквесте не указан user agent и из за этого может измениться построение страницы. Более того, не факт, что Яндекс возвращает одинаковые xpath даже для одного user agent - например, Google постоянно меняет структуру страницы 0

@Fudthhh Модератор 2696 / 1602 / 513 Регистрация: 21.02.2017 Сообщений: 4,210 Записей в блоге: 1
	06.04.2020, 12:12
	nikki4, парси проще, получаешь текст html, то что нужно вырезаешь регулярками. 0

@DobroAlex Заклинатель змей 705 / 560 / 219 Регистрация: 30.04.2016 Сообщений: 2,605
	06.04.2020, 12:25
	DmFat, главное, не парсить html регулярками 0

Почему не парсит XPath в яндексе?

Решение