Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.80/15: Рейтинг темы: голосов - 15, средняя оценка - 4.80
22 / 16 / 7
Регистрация: 20.07.2010
Сообщений: 264

Почему xpath в xpather работает как надо, а html.xpath обрезает последний элемент

20.05.2020, 23:24. Показов 3550. Ответов 15
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Тут все ок.
http://xpather.com/QdzC7iC7
Добавляю выражение для скрипта, но там обрезается артикул:
Python
1
2
3
4
5
6
7
8
9
10
import requests_html
from requests_html import HTMLSession
 
url="https://www.mikopt.ru/catalog/myagkaya-mebel/pufy-i-banketki/ff6093-tualetnyj-stolik-s-zerkalom-tsvet-molochnyj-s-zolotom-detail"
session=HTMLSession()
resp = session.get(url)
 
val= resp.html.xpath("//div[@class='spacer-buy-area']//tr/td[2]/text()")
 
print(val)
нужно чтобы артикул выводило в конце, помимо размеров
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
20.05.2020, 23:24
Ответы с готовыми решениями:

Выбрать элемент с html с xpath
Приветствую! Как с помощью xpath можно достать нужный кусок html? Мне на странице нужно взять только <div...

Подскажите по парсингу, не могу понять почему не работает xpath
Есть программка, хочу парсить страницу, использую HtmlAgilityPack, беру элемент нужный из кода по пути xpath, но нахожу только один...

Как в xpath получить html теги?
<div><p>текст</p></div> как отсюда вытащить не "текст" а <p>текст</p>? resp.html.xpath("//div//text()") Добавлено через...

15
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
21.05.2020, 00:44
Лучший ответ Сообщение было отмечено nikki4 как решение

Решение

Ничего не обрезается:
Python
1
2
3
4
5
6
>>> from lxml.html import fromstring
>>> root = fromstring(text)
>>> result = root.xpath("//div[@class='spacer-buy-area']//tr/td[2]/text()")
>>> [line.strip() for line in result]
['10.00 KG', '50 CM', '40 CM', '46 CM', 'n003708']
>>>
0
Эксперт С++
 Аватар для Avazart
8488 / 6155 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
21.05.2020, 00:48
Я обычно использую requests + bs4

xpath слишком муторный когда страницу меняют потом долго разбираться что изменили.
Вложенности типа //tr/td[2]/text() мешают.
0
22 / 16 / 7
Регистрация: 20.07.2010
Сообщений: 264
21.05.2020, 00:54  [ТС]
Цитата Сообщение от Garry Galler Посмотреть сообщение
Ничего не обрезается:
а что такое text? -ссылка?
выдает пустой результат:
Python
1
2
3
4
5
6
7
8
9
import requests_html
from requests_html import HTMLSession
from lxml.html import fromstring
 
url="https://www.mikopt.ru/catalog/myagkaya-mebel/pufy-i-banketki/ff6093-tualetnyj-stolik-s-zerkalom-tsvet-molochnyj-s-zolotom-detail"
root = fromstring(url)
result = root.xpath("//div[@class='spacer-buy-area']//tr/td[2]/text()")
rez=[line.strip() for line in result]
print(rez)
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
21.05.2020, 01:40
fromstring принимает содержимое страницы, а не url.
lxml это парсер, а не http клиент.

а requests_html это нагромождение всего в одной библиотеке.
Не пользовался и вряд ли буду.

Добавлено через 2 минуты
Цитата Сообщение от Avazart Посмотреть сообщение
xpath слишком муторный
bs4 использует тот же самый xpath и css select. Только вместо нормального и известного всем синтаксиса (XPATH\CSS одинаковы для всех языков) использует функции с именованными параметрами с дурацкими вариантами(перегрузками, которые Python не свойственны).

Добавлено через 4 минуты
Цитата Сообщение от Avazart Посмотреть сообщение
Вложенности типа //tr/td[2]/text() мешают
А это уже ТС так решил. Я бы написал другой XPATH, которому никакие смены дизайна не страшны.
0
Эксперт С++
 Аватар для Avazart
8488 / 6155 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
21.05.2020, 11:08
Цитата Сообщение от Garry Galler Посмотреть сообщение
использует функции с именованными параметрами с дурацкими вариантами(перегрузками, которые Python не свойственны).
Это Вы про что конкретно? Именованные параметры как раз свойственны Python
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
21.05.2020, 12:47
Цитата Сообщение от Avazart Посмотреть сообщение
Именованные параметры как раз свойственны Python
Именованные параметры да, но не параметрический полиформизм как часть языка. В языке этого нет (не считая несколько встроенных в интерпретатор функций с перегрузкой типа str или iter), но некоторые библиотеки все равно имитируют перегрузку функций, интерпретируя переданные параметры в зависимости от типа или порядка передачи. В bs4 как раз это есть, причем реализовано далеко не самым логичным образом.
Python
1
2
3
4
5
6
7
soup.find_all("title")  # что передано первым параметром: имя элемента или имя класса элемента?
soup.find_all("p", "title") # WTF?!
soup.find_all(id="link2")
soup.find_all(id=True) # WTF?!
soup.title.find_all(string=True) # WTF?!
soup.find_all(string="Elsie")
soup.find_all(string=["Tillie", "Elsie", "Lacie"])
и т.д. То что параметр string может быть как строкой, списком строк еще можно согласиться, на зачем еще и bool?
Или порядок параметров: можно передать имя элемента, а можно имя элемента, затем имя класса.... плюс еще куча именованных параметров, среди которых опять же есть именованный class_. Как я должен запомнить сигнатуру этой функции?
0
Эксперт С++
 Аватар для Avazart
8488 / 6155 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
21.05.2020, 19:44
Мм мы сейчас про Python или С++ ?

Добавлено через 6 минут
Т.е. когда это в python проверялись типы? и вообще появилась перегрузка.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
21.05.2020, 19:47
Цитата Сообщение от Avazart Посмотреть сообщение
Т.е. когда это в python проверялись типы? и вообще появилась перегрузка
Если кто-то хочет реализовать имитацию перегрузки функции как в С++ - делают как я описал.
bs4 делает. И это не есть хорошо по ряду по причин. Я об этом.

Добавлено через 1 минуту
Цитата Сообщение от Avazart Посмотреть сообщение
Т.е. когда это в python проверялись типы?
Вообще-то интерпретатор проверяет типы при каждом обращении к переменной.
Именно поэтому в Python сильная типизация и именно поэтому он медленный.
0
Эксперт С++
 Аватар для Avazart
8488 / 6155 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
21.05.2020, 19:59
Цитата Сообщение от Garry Galler Посмотреть сообщение
soup.find_all("title") # что передано первым параметром: имя элемента или имя класса элемента?
soup.find_all("p", "title") # WTF?!
soup.find_all(id="link2")
soup.find_all(id=True) # WTF?!
soup.title.find_all(string=True) # WTF?!
soup.find_all(string="Elsie")
soup.find_all(string=["Tillie", "Elsie", "Lacie"])
Смотрим определение https://github.com/getanewslet... element.py


Python
1
2
def find_all(self, name=None, attrs={}, recursive=True, text=None,
                 limit=None, **kwargs):

И видим что первым идет имя элемента, потом атрибуты итд.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
21.05.2020, 20:08
Цитата Сообщение от Avazart Посмотреть сообщение
что первым идет имя элемента
Python
1
2
3
soup.find('div', "js-child-name")
soup.find('div', {"class"_="js-child-name"})
soup.find('div', class_="js-child-name")
Зато слишком много вариантов передачи для прочих параметров.
Правильно же написанный XPATH дает понимание работы кода без необходимости залезать в документацию либы с неочевидными правилами передачи параметров.
0
Эксперт С++
 Аватар для Avazart
8488 / 6155 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
21.05.2020, 20:11
Что значит слишком много еще для скриптового языка? Тогда может стоит запретить именованные параметры вообще?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
21.05.2020, 20:22
Цитата Сообщение от Avazart Посмотреть сообщение
Тогда может стоит запретить именованные параметры вообще?
В bs4 они используются неправильно. Запрещать ничего не нужно - нужно просто их правильно применять.

Цитата Сообщение от Avazart Посмотреть сообщение
И видим что первым идет имя элемента
Вдогонку:
name can be a string, a regular expression, a list, a function, or the value True.
WTF?

Добавлено через 7 минут
Пример нормальных функций (никакой псевдоперегрузки - для каждого типа действия своя функция), которые дают интуитивное понимание что передано и что вернется:
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector
To find multiple elements (these methods will return a list):
 
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partial_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector
0
Эксперт С++
 Аватар для Avazart
8488 / 6155 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
21.05.2020, 22:41
Цитата Сообщение от Garry Galler Посмотреть сообщение
name can be a string, a regular expression, a list, a function, or the value True.
WTF?
Там что не понятно поиск регуляркой по имени или одно "из".
Задаете регулярку и все теги попадающие под регулярку по имени возвращаются что очень таки удобно.

Добавлено через 2 минуты
Цитата Сообщение от Garry Galler Посмотреть сообщение
Пример нормальных функций (никакой псевдоперегрузки - для каждого типа действия своя функция), которые дают интуитивное понимание что передано и что вернется:
Нет это пример избыточности. И в селениуме нет поиска с использованием регулярок.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
22.05.2020, 00:42
Цитата Сообщение от Avazart Посмотреть сообщение
Там что не понятно поиск регуляркой по имени или одно "из".
Функция, где параметром может передаваться что угодно, это плохой дизайн функции. Если вы понимаете что это такое.

Цитата Сообщение от Avazart Посмотреть сообщение
Нет это пример избыточности.
Пример избыточности это излишняя перегрузка функции вариантами исполнения.
Это же и пример запутывания кода и плохой читабельности.

Пример функций из selenium это пример нормального дизайна, который интуитивен и понятен.

Цитата Сообщение от Avazart Посмотреть сообщение
И в селениуме нет поиска с использованием регулярок.
Потому что есть cssselect, синтаксис которого поддерживает определенные шаблоны.
Для прочих вещей регулярки пишутся программистом и занимают ровно одну строку вызовом re.search или re.match.
Включение их в библиотеку html парсинга это излишество.
Суммируя: bs4 это либа для нубов, которые ее, в основном, и используют, так как не знают ни XPATH, ни CSS селекторы.
0
Эксперт С++
 Аватар для Avazart
8488 / 6155 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
22.05.2020, 10:47
Цитата Сообщение от Garry Galler Посмотреть сообщение
Функция, где параметром может передаваться что угодно, это плохой дизайн функции. Если вы понимаете что это такое.
Чушь.

Python
1
2
3
4
5
6
7
l = [1,2]
d = {  }
s = "sss"
 
print(l)
print(d)
print(s)
print плохая ф-ция?

Добавлено через 2 минуты
Цитата Сообщение от Garry Galler Посмотреть сообщение
Пример избыточности это излишняя перегрузка функции вариантами исполнения.
Она не излишня учитывая предоставляемый ф-ционал.

Добавлено через 29 секунд
Цитата Сообщение от Garry Galler Посмотреть сообщение
Потому что есть cssselect, синтаксис которого поддерживает определенные шаблоны.
Поддерживает регулярки?
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
22.05.2020, 10:47
Помогаю со студенческими работами здесь

Как найти элемент по NAME в XPATH Selenium Java?
Привет. Есть элемент <input type="password" name="password"> Как мне сделать верный xpath? Я попробовал так, но это не сработало ...

Как с через xpath перебрать все строки и ячейки HTML таблицы
Хелп! Бьюсь не один день. Есть к примеру такая таблица <table class="list_rek_table"> <tbody> <tr> <td><span...

HTML и XPath
Здравствуйте! Есть HTML-файл, из него нужно получить некие данные и записать их в .xls файл. В этом HTML-файле есть такие блоки: <TD...

Requests, html, xpath
Всем доброе время суток, никак не могу понять почему не работает запрос xpath, помогите пожалуйста: import requests from lxml import...

Парсинг в HTML Xpath
Привет. Может у кого есть не сложный модуль для парсинга HTML с помощью Xpath? Если есть, поделитесь пожалуйста. Спасибо.


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
16
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Основы отладки веб-приложений на SDL3 по USB и Wi-Fi, запущенных в браузере мобильных устройств
8Observer8 07.02.2026
Содержание блога Браузер Chrome имеет средства для отладки мобильных веб-приложений по USB. В этой пошаговой инструкции ограничимся работой с консолью. Вывод в консоль - это часть процесса. . .
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru