Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.64/11: Рейтинг темы: голосов - 11, средняя оценка - 4.64
22 / 16 / 7
Регистрация: 20.07.2010
Сообщений: 264
1

Почему не парсит XPath в яндексе?

06.04.2020, 01:41. Показов 2158. Ответов 8
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
почему-то не парсятся заголовки в результатах поиска яндекса. Может из-за вложенных тегов b?

HTML5
1
<div class="organic__url-text" id="uniq1586064325263788626">Значение слова «<b class="needsclick">запрос</b>» в 7 словарях</div>
ожидал, что выведет следующее:
HTML5
1
Значение слова «<b class="needsclick">запрос</b>» в 7 словарях
написал следующее, вызывает пустой результат.
не понимаю в чем ошибка, вроде бы правильно написал.

Python
1
2
3
4
5
6
7
from requests_html import HTMLSession
session = HTMLSession()
resp = session.get('https://www.yandex.ru/search/?text=запрос')
links = resp.html.xpath("//div[@class='organic__url-text']/text()")
 
print('Заголовки:')
print(links)
0
Лучшие ответы (1)
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
06.04.2020, 01:41
Ответы с готовыми решениями:

Почему xpath в xpather работает как надо, а html.xpath обрезает последний элемент
Тут все ок. http://xpather.com/QdzC7iC7 Добавляю выражение для скрипта, но там обрезается...

Не понимаю почему не парсит
Не как не могу спарсить конкретный сайт, почему? помогите плиз $ch = curl_init(); ...

Почему не парсит конкретный сайт?
Учусь. Для практики сделал анализатор тайтлов. открывается файл, запускается функция, которая...

Почему CURL не парсит ASCII ?
Добрый день, подскажите, пожалуйста, почему curl не хочет парсить код HTML страницы с кодировкой...

Почему bs4 неверно парсит страницу?
Доброго времени суток, пытаюсь спарсить аватарку вконтакте, в качестве примера взяла Павла Дурова,...

8
Заклинатель змей
700 / 555 / 219
Регистрация: 30.04.2016
Сообщений: 2,591
06.04.2020, 11:48 2
nikki4, уверены ли Вы, что Яндекс всегда возвращает одну и ту же страницу? В реквесте не указан user agent и из за этого может измениться построение страницы. Более того, не факт, что Яндекс возвращает одинаковые xpath даже для одного user agent - например, Google постоянно меняет структуру страницы
0
Модератор
Эксперт Python
2689 / 1595 / 513
Регистрация: 21.02.2017
Сообщений: 4,209
Записей в блоге: 1
06.04.2020, 12:12 3
nikki4, парси проще, получаешь текст html, то что нужно вырезаешь регулярками.
0
Заклинатель змей
700 / 555 / 219
Регистрация: 30.04.2016
Сообщений: 2,591
06.04.2020, 12:25 4
DmFat, главное, не парсить html регулярками
0
22 / 16 / 7
Регистрация: 20.07.2010
Сообщений: 264
06.04.2020, 14:06  [ТС] 5
Цитата Сообщение от nikki4 Посмотреть сообщение
_
страница каждый раз может быть разной - не важно.
просто принцип понять. в учебном примере был гугл. а я попробовал по аналогии для яндекса.
вот там заголовки всегда оборачиваются в класс organic__url-text

разобрался на тестовом примере как получать данные по классу, но почему-то не сработало.
0
Эксперт Python
5418 / 3842 / 1214
Регистрация: 28.10.2013
Сообщений: 9,554
Записей в блоге: 1
06.04.2020, 14:12 6
Цитата Сообщение от nikki4 Посмотреть сообщение
но почему-то не сработало.
Ну давай посмотрим как нормальные пацаны парсят.
Python
1
2
3
4
5
6
7
8
9
10
>>> import requests
>>> import lxml.html
>>> url = 'https://www.yandex.ru/search/?text=запрос'
>>> page = requests.get(url)
>>> root = lxml.html.fromstring(page.text)
>>> root.xpath("//div[@class='organic__url-text']")
[<Element div at 0x288dd98>, <Element div at 0x289bc30>, <Element div at 0x289b028>, <Element div at 0x289ba50>, <Element div at 0x289c910>, <Element div at 0x289caf0>, <Element div at 0x289caa0>, <Element div at 0x289cc08>, <Element div at 0x289cbe0>, <Element div at 0x289c230>, <Element div at 0x289c0f0>, <Element div at 0x29065a0>]
>>> root.xpath("//div[@class='organic__url-text']/text()")
['Строительство заборов и ограждений – Яндекс.Услуги', ' — Викисловарь', 'Значение слова ', '. Что такое ', '?', ' — Толковый словарь русского языка Дмитриева', 'Значение слова «', '» в 7 словарях', 'Поисковый ', ' — Толковый словарь Ефремовой', ' что это? Значение слова ', 'Что значит ', ' - Значения слов', 'Значение слова «', '» в 10 онлайн словарях Даль...', 'Слово ', ' - Что такое ', '? - Значения слова...', 'Строительство заборов и ограждений – Яндекс.Услуги']
>>>
0
22 / 16 / 7
Регистрация: 20.07.2010
Сообщений: 264
06.04.2020, 14:42  [ТС] 7
А почему у меня не работает код выше?

установил lxml:



добавил принты, чтобы посмотреть предварительные результаты:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import requests
import lxml.html
 
url = 'https://www.yandex.ru/search/?text=запрос'
 
page = requests.get(url)
print('page')
print(page)
print(' ')
 
root = lxml.html.fromstring(page.text)
print('root lxml.html:')
print(root)
print(' ')
 
rezult1 = root.xpath("//div[@class='organic__url-text']")
print('root.xpath без text()')
print(rezult1)
print(' ')
 
rezult2 = root.xpath("//div[@class='organic__url-text']/text()")
print('root.xpath с text()')
print(rezult2)
На выходе в pycharm
page
<Response [200]>

root lxml.html:
<Element html at 0x2ddf188>

root.xpath без text()
[]

root.xpath с text()
[]

Process finished with exit code 0
0
Эксперт Python
5418 / 3842 / 1214
Регистрация: 28.10.2013
Сообщений: 9,554
Записей в блоге: 1
06.04.2020, 14:48 8
Лучший ответ Сообщение было отмечено nikki4 как решение

Решение

Цитата Сообщение от nikki4 Посмотреть сообщение
А почему у меня не работает код выше?
А версия Python какая?
Вообще, странно. Ищи проблему на своем компе.

Добавлено через 2 минуты
Посмотри, что у тебя в page.text.
Может быть, там, действительно, нет нужных элементов: то есть яндекс тебя принял за бота и ничего не прислал.
1
22 / 16 / 7
Регистрация: 20.07.2010
Сообщений: 264
06.04.2020, 14:53  [ТС] 9
Походу дела яндекс принял меня за бота.
гугл тоже так думал, но тот сразу мне 404 кажется отдавал, вместо 200 в отличие от яндекса.

добавил следующий код и сразу все заработало!
Python
1
2
3
print('page.text')
print(page.text)
print(' ')
убрал - не работает
добавил - опять не работает.
но 1 раз увидел, что работает
0
06.04.2020, 14:53
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
06.04.2020, 14:53
Помогаю со студенческими работами здесь

Не парсит jQuery.parseJSON, не пойму почему
Здравствуйте, у меня учебная задача подгружать при прокрутке контент, типа стены в контакте. Не...

Почему nokogiri класс в PHP парсит не все сайты?
По данному адресу https://github.com/olamedia/nokogiri есть замечательная библиотека nokogiri,...

Почему xpath не находит ссылки на почту?
на странице есть эмейлы, но ни один не выводится в siteurls #utf-8 import urllib.request import...

Подскажите по парсингу, не могу понять почему не работает xpath
Есть программка, хочу парсить страницу, использую HtmlAgilityPack, беру элемент нужный из кода по...

Почему не виден сайт в яндексе ?
Сайт не виден по релевантным запросам. Запросы - &quot;кредит залог&quot; , &quot;кредит под залог&quot;. В title,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru