Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.92/13: Рейтинг темы: голосов - 13, средняя оценка - 4.92
22 / 16 / 7
Регистрация: 20.07.2010
Сообщений: 264

Почему не парсит XPath в яндексе?

06.04.2020, 01:41. Показов 2702. Ответов 8
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
почему-то не парсятся заголовки в результатах поиска яндекса. Может из-за вложенных тегов b?

HTML5
1
<div class="organic__url-text" id="uniq1586064325263788626">Значение слова «<b class="needsclick">запрос</b>» в 7 словарях</div>
ожидал, что выведет следующее:
HTML5
1
Значение слова «<b class="needsclick">запрос</b>» в 7 словарях
написал следующее, вызывает пустой результат.
не понимаю в чем ошибка, вроде бы правильно написал.

Python
1
2
3
4
5
6
7
from requests_html import HTMLSession
session = HTMLSession()
resp = session.get('https://www.yandex.ru/search/?text=запрос')
links = resp.html.xpath("//div[@class='organic__url-text']/text()")
 
print('Заголовки:')
print(links)
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
06.04.2020, 01:41
Ответы с готовыми решениями:

Почему xpath в xpather работает как надо, а html.xpath обрезает последний элемент
Тут все ок. http://xpather.com/QdzC7iC7 Добавляю выражение для скрипта, но там обрезается артикул: import requests_html from...

Не понимаю почему не парсит
Не как не могу спарсить конкретный сайт, почему? помогите плиз $ch = curl_init(); $options = array( ...

Почему не парсит конкретный сайт?
Учусь. Для практики сделал анализатор тайтлов. открывается файл, запускается функция, которая парсит метатеги сайтов по урлам из файла, ...

8
Заклинатель змей
 Аватар для DobroAlex
705 / 560 / 219
Регистрация: 30.04.2016
Сообщений: 2,605
06.04.2020, 11:48
nikki4, уверены ли Вы, что Яндекс всегда возвращает одну и ту же страницу? В реквесте не указан user agent и из за этого может измениться построение страницы. Более того, не факт, что Яндекс возвращает одинаковые xpath даже для одного user agent - например, Google постоянно меняет структуру страницы
0
Модератор
Эксперт Python
 Аватар для Fudthhh
2696 / 1602 / 513
Регистрация: 21.02.2017
Сообщений: 4,210
Записей в блоге: 1
06.04.2020, 12:12
nikki4, парси проще, получаешь текст html, то что нужно вырезаешь регулярками.
0
Заклинатель змей
 Аватар для DobroAlex
705 / 560 / 219
Регистрация: 30.04.2016
Сообщений: 2,605
06.04.2020, 12:25
DmFat, главное, не парсить html регулярками
0
22 / 16 / 7
Регистрация: 20.07.2010
Сообщений: 264
06.04.2020, 14:06  [ТС]
Цитата Сообщение от nikki4 Посмотреть сообщение
_
страница каждый раз может быть разной - не важно.
просто принцип понять. в учебном примере был гугл. а я попробовал по аналогии для яндекса.
вот там заголовки всегда оборачиваются в класс organic__url-text

разобрался на тестовом примере как получать данные по классу, но почему-то не сработало.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
06.04.2020, 14:12
Цитата Сообщение от nikki4 Посмотреть сообщение
но почему-то не сработало.
Ну давай посмотрим как нормальные пацаны парсят.
Python
1
2
3
4
5
6
7
8
9
10
>>> import requests
>>> import lxml.html
>>> url = 'https://www.yandex.ru/search/?text=запрос'
>>> page = requests.get(url)
>>> root = lxml.html.fromstring(page.text)
>>> root.xpath("//div[@class='organic__url-text']")
[<Element div at 0x288dd98>, <Element div at 0x289bc30>, <Element div at 0x289b028>, <Element div at 0x289ba50>, <Element div at 0x289c910>, <Element div at 0x289caf0>, <Element div at 0x289caa0>, <Element div at 0x289cc08>, <Element div at 0x289cbe0>, <Element div at 0x289c230>, <Element div at 0x289c0f0>, <Element div at 0x29065a0>]
>>> root.xpath("//div[@class='organic__url-text']/text()")
['Строительство заборов и ограждений – Яндекс.Услуги', ' — Викисловарь', 'Значение слова ', '. Что такое ', '?', ' — Толковый словарь русского языка Дмитриева', 'Значение слова «', '» в 7 словарях', 'Поисковый ', ' — Толковый словарь Ефремовой', ' что это? Значение слова ', 'Что значит ', ' - Значения слов', 'Значение слова «', '» в 10 онлайн словарях Даль...', 'Слово ', ' - Что такое ', '? - Значения слова...', 'Строительство заборов и ограждений – Яндекс.Услуги']
>>>
0
22 / 16 / 7
Регистрация: 20.07.2010
Сообщений: 264
06.04.2020, 14:42  [ТС]
А почему у меня не работает код выше?

установил lxml:



добавил принты, чтобы посмотреть предварительные результаты:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import requests
import lxml.html
 
url = 'https://www.yandex.ru/search/?text=запрос'
 
page = requests.get(url)
print('page')
print(page)
print(' ')
 
root = lxml.html.fromstring(page.text)
print('root lxml.html:')
print(root)
print(' ')
 
rezult1 = root.xpath("//div[@class='organic__url-text']")
print('root.xpath без text()')
print(rezult1)
print(' ')
 
rezult2 = root.xpath("//div[@class='organic__url-text']/text()")
print('root.xpath с text()')
print(rezult2)
На выходе в pycharm
page
<Response [200]>

root lxml.html:
<Element html at 0x2ddf188>

root.xpath без text()
[]

root.xpath с text()
[]

Process finished with exit code 0
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
06.04.2020, 14:48
Лучший ответ Сообщение было отмечено nikki4 как решение

Решение

Цитата Сообщение от nikki4 Посмотреть сообщение
А почему у меня не работает код выше?
А версия Python какая?
Вообще, странно. Ищи проблему на своем компе.

Добавлено через 2 минуты
Посмотри, что у тебя в page.text.
Может быть, там, действительно, нет нужных элементов: то есть яндекс тебя принял за бота и ничего не прислал.
1
22 / 16 / 7
Регистрация: 20.07.2010
Сообщений: 264
06.04.2020, 14:53  [ТС]
Походу дела яндекс принял меня за бота.
гугл тоже так думал, но тот сразу мне 404 кажется отдавал, вместо 200 в отличие от яндекса.

добавил следующий код и сразу все заработало!
Python
1
2
3
print('page.text')
print(page.text)
print(' ')
убрал - не работает
добавил - опять не работает.
но 1 раз увидел, что работает
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
06.04.2020, 14:53
Помогаю со студенческими работами здесь

Почему CURL не парсит ASCII ?
Добрый день, подскажите, пожалуйста, почему curl не хочет парсить код HTML страницы с кодировкой ASCII ?

Почему bs4 неверно парсит страницу?
Доброго времени суток, пытаюсь спарсить аватарку вконтакте, в качестве примера взяла Павла Дурова, часть кода следующая: import bs4 ...

Не парсит jQuery.parseJSON, не пойму почему
Здравствуйте, у меня учебная задача подгружать при прокрутке контент, типа стены в контакте. Не понимаю почему не парсит JSON.parse? Вот...

Почему nokogiri класс в PHP парсит не все сайты?
По данному адресу https://github.com/olamedia/nokogiri есть замечательная библиотека nokogiri, Которая отлично парсит предложенный в...

Почему xpath не находит ссылки на почту?
на странице есть эмейлы, но ни один не выводится в siteurls #utf-8 import urllib.request import requests import lxml.html import...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
Горе от ума
kumehtar 07.04.2026
Эта мне ментальная установка, что вот прямо сейчас, мол, мне для полного счастья не хватает (нужное вписать), и когда я этого достигну - тогда и полный кайф. Одна из самых сильных ловушек на пути. . . .
Использование значений реквизитов справочника в документе, с определенными условиями и правами
Maks 07.04.2026
1. Контроль срока действия договора Алгоритм из решения ниже реализован на примере нетипового документа "ЗаявкаНаРаботу", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если. . .
Доступность команды формы по условию
Maks 07.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: сделать доступной кнопку (команда формы "ЗавершитьСписание") при. . .
Уведомление о неверно выбранном значении справочника
Maks 06.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "НарядПутевка", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если в документе выбран неверный склад. . .
Установка Qt Creator для C и C++: ставим среду, CMake и MinGW без фреймворка Qt
8Observer8 05.04.2026
Среду разработки Qt Creator можно установить без фреймворка Qt. Есть отдельный репозиторий для этой среды: https:/ / github. com/ qt-creator/ qt-creator, где можно скачать установщик, на вкладке Releases:. . .
AkelPad-скрипты, структуры, и немного лирики..
testuser2 05.04.2026
Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru