22 / 16 / 7
Регистрация: 20.07.2010
Сообщений: 264
|
||||||||||||||||
1 | ||||||||||||||||
Почему не парсит XPath в яндексе?06.04.2020, 01:41. Показов 2158. Ответов 8
Метки нет (Все метки)
почему-то не парсятся заголовки в результатах поиска яндекса. Может из-за вложенных тегов b?
не понимаю в чем ошибка, вроде бы правильно написал.
0
|
06.04.2020, 01:41 | |
Ответы с готовыми решениями:
8
Почему xpath в xpather работает как надо, а html.xpath обрезает последний элемент Не понимаю почему не парсит Почему не парсит конкретный сайт? Почему CURL не парсит ASCII ? Почему bs4 неверно парсит страницу? |
Заклинатель змей
700 / 555 / 219
Регистрация: 30.04.2016
Сообщений: 2,591
|
|
06.04.2020, 11:48 | 2 |
nikki4, уверены ли Вы, что Яндекс всегда возвращает одну и ту же страницу? В реквесте не указан user agent и из за этого может измениться построение страницы. Более того, не факт, что Яндекс возвращает одинаковые xpath даже для одного user agent - например, Google постоянно меняет структуру страницы
0
|
Заклинатель змей
700 / 555 / 219
Регистрация: 30.04.2016
Сообщений: 2,591
|
|
06.04.2020, 12:25 | 4 |
DmFat, главное, не парсить html регулярками
0
|
22 / 16 / 7
Регистрация: 20.07.2010
Сообщений: 264
|
|
06.04.2020, 14:06 [ТС] | 5 |
страница каждый раз может быть разной - не важно.
просто принцип понять. в учебном примере был гугл. а я попробовал по аналогии для яндекса. вот там заголовки всегда оборачиваются в класс organic__url-text разобрался на тестовом примере как получать данные по классу, но почему-то не сработало.
0
|
06.04.2020, 14:12 | 6 | |||||
Ну давай посмотрим как нормальные пацаны парсят.
0
|
22 / 16 / 7
Регистрация: 20.07.2010
Сообщений: 264
|
||||||
06.04.2020, 14:42 [ТС] | 7 | |||||
А почему у меня не работает код выше?
установил lxml: добавил принты, чтобы посмотреть предварительные результаты:
0
|
06.04.2020, 14:48 | 8 |
Сообщение было отмечено nikki4 как решение
Решение
А версия Python какая?
Вообще, странно. Ищи проблему на своем компе. Добавлено через 2 минуты Посмотри, что у тебя в page.text. Может быть, там, действительно, нет нужных элементов: то есть яндекс тебя принял за бота и ничего не прислал.
1
|
22 / 16 / 7
Регистрация: 20.07.2010
Сообщений: 264
|
||||||
06.04.2020, 14:53 [ТС] | 9 | |||||
Походу дела яндекс принял меня за бота.
гугл тоже так думал, но тот сразу мне 404 кажется отдавал, вместо 200 в отличие от яндекса. добавил следующий код и сразу все заработало!
добавил - опять не работает. но 1 раз увидел, что работает
0
|
06.04.2020, 14:53 | |
06.04.2020, 14:53 | |
Помогаю со студенческими работами здесь
9
Не парсит jQuery.parseJSON, не пойму почему Почему nokogiri класс в PHP парсит не все сайты? Почему xpath не находит ссылки на почту? Подскажите по парсингу, не могу понять почему не работает xpath Почему не виден сайт в яндексе ? Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |