Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 4.85/13: Рейтинг темы: голосов - 13, средняя оценка - 4.85
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431

Xpath and Scraping

05.04.2016, 16:37. Показов 2838. Ответов 50
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Вот страница
http://econpy.pythonanywhere.com/ex/001.html
хочу получить два списка,закупщик и цена, есть несколько вопросов, как получить все страницы, дополнив код, который я покажу и вопрос насчет xpath, как получился именно такой, как в коде.
Пы Сы Насколько понял знания xpath нужны, поэтому думаю изучить вот это http://www.w3schools.com/xsl/xpath_intro.asp
Python
1
2
3
4
5
6
import requests
from lxml import html
page = requests.get('http://econpy.pythonanywhere.com/ex/001.htm')
tree = html.fromstring(page.content)
buyers = tree.xpath('//div[@title="buyer-name"]/text()')
prices = tree.xpath('//span[@class="item-price"]/text()')
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
05.04.2016, 16:37
Ответы с готовыми решениями:

Scraping
Подскажите пожалуйста как вытащить информацию с data-phone-number <span title="Перевірений телефон" class="phone...

Почему xpath в xpather работает как надо, а html.xpath обрезает последний элемент
Тут все ок. http://xpather.com/QdzC7iC7 Добавляю выражение для скрипта, но там обрезается артикул: import requests_html from...

Задача 6. Web scraping
Задача 6. Web scraping Что нужно сделать Дан несложный пример HTML-страницы: Sample Web Page. Изучите код этой страницы и...

50
05.04.2016, 16:42

Не по теме:

Я бы на твоем месте лучше с cssselect знакомился, более часто используемая и полезная штука

0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
05.04.2016, 16:55
а я бы посоветовал быть более внимательным при копировании и отличать htm и html - абсолютно разные вещи.
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 16:55
Не работало все у тебя из-за неправильно url
Python
1
2
3
4
5
6
7
8
9
10
11
import requests
from lxml import html
 
page = requests.get('http://econpy.pythonanywhere.com/ex/001.html')
parser = html.fromstring(page.text)
 
buyers = parser.cssselect('div[title="buyer-info"] div')
prices = parser.cssselect('span.item-price')
 
print(list(map(lambda i: i.text, buyers)))
print(list(map(lambda i: i.text, prices)))
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
05.04.2016, 17:07  [ТС]
Python
1
2
3
4
5
6
7
8
9
import requests
from lxml import html
page = requests.get('http://econpy.pythonanywhere.com/ex/001.html')#Получаем веб страницу, r-объект-отклик
tree = html.fromstring(page.content)
#print(page.content)
#This will create a list of buyers:
buyers = tree.xpath('//div[@title="buyer-name"]/text()')
#This will create a list of prices
prices = tree.xpath('//span[@class="item-price"]/text()')
да, извиняюсь, вот работает, но вопрос остаался прежним, как мне дополнить вот этот код, чтобы забрать со всех страничек.Алекс, ваш код запустил в интерпретаторе и выдало ошибку.
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
05.04.2016, 17:11
подсказка:

Python
1
print(tree.xpath('//a/@href'))
Добавлено через 26 секунд
Цитата Сообщение от izuchaju_python Посмотреть сообщение
Алекс, ваш код запустил в интерпретаторе и выдало ошибку.
cssselect нужно отдельно ставить
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 17:12
izuchaju_python, ты ошибку то выложил бы, а то так это безсмысленное сообщение.
Вообще вангую, что ошибка об отсутствие библиотеки cssselect.

Что касается того как собрать информацию со всех страниц, то тут все тривиально. Просто делаешь несколько запросов с помощью цикла и все
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
05.04.2016, 18:20  [ТС]
alex925, Да, из-за отсутствия, извиняюсь, новичок, еще толком не разобрался что к чему...

Добавлено через 2 минуты
скажите, xpath нужны? стоит их учить?
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
05.04.2016, 18:21
учите и их и css селекторы, не ошибетесь
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
05.04.2016, 18:24  [ТС]
cssselect, еще б знать, как его ставить на пк...
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 18:25
izuchaju_python, лично я пока не сталкивался, что бы мне нужны были знания xpath. Везде можно использовать cssselectors. Они на мой взгляд проще читаются и больше распространены, по этому их использую.
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
05.04.2016, 18:25
все банально,
Code
1
pip install cssselect
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 18:25
izuchaju_python, pip install cssselect
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
05.04.2016, 18:28  [ТС]
alex925, Jabbson,
Миниатюры
Xpath and Scraping  
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 18:33
izuchaju_python, ну все, модуль установлен.
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
05.04.2016, 18:34  [ТС]
ничего не получается, ваш код пытался запустить ===> результат===>
Миниатюры
Xpath and Scraping  
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 18:39
Ты наверно для python 2 поставил либу, запусти команду pip3 install cssselect
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
05.04.2016, 18:43
Цитата Сообщение от alex925 Посмотреть сообщение
Ты наверно для python 2 поставил либу, запусти команду pip3 install cssselect
причина пользоваться virtualenv

использование pycharm тоже помогает, если ставить из под него модули.
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
05.04.2016, 18:47  [ТС]
alex925, thank you very much!

Добавлено через 2 минуты
Jabbson, спасибо за совет. Теперь можно постараться дописать программу. Спасибо alex925,
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 18:55
Jabbson, да нет, это не из той серии. Виртуальное окружение полезно, когда нужно иметь несколько версий одного и того же модуля, а тут просто по ошибке поставил библиотеку не для того интерпретатора.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
05.04.2016, 18:55
Помогаю со студенческими работами здесь

Web scraping и переменные
Добрый ден, я начал изучать программирование и так как приходилось наблюдать за работой людей на nodejs, решил начать именно с него. ...

Web-Scraping Python
https://sbis.ru/contragents?p=contragents Есть сайт компаний, не могу понять как получить ссылку на компанию, нахожу div'ы ячейки, но там...

WEB-Scraping Интернет-магазина
Добрый день, дорогие форумчане! Начинаю изучать Python, поэтому буду благодарен вам за любую помощь. Пытаюсь спарсить ряд параметров с...

HtmlUnit financial website web scraping
Нужна помощь с вытаскиванием таблицы из сайта: https://www.cyberforum.ru/web-mastering/thread1553491.html ...

Выбор django или Scraping + Data Mining
Здравствуйте. Усилено изучаю пайтон. Прошел момент практического выбора чем именно заняться, из двух направлений, и насколько они...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++
8Observer8 17.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-rectangles-sdl3-c. zip finish-rectangles-sdl3-cpp. zip
Символические и жёсткие ссылки в Linux.
algri14 15.03.2026
Существует два типа ссылок — символические и жёсткие. Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru