Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 4.85/13: Рейтинг темы: голосов - 13, средняя оценка - 4.85
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431

Xpath and Scraping

05.04.2016, 16:37. Показов 2728. Ответов 50
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Вот страница
http://econpy.pythonanywhere.com/ex/001.html
хочу получить два списка,закупщик и цена, есть несколько вопросов, как получить все страницы, дополнив код, который я покажу и вопрос насчет xpath, как получился именно такой, как в коде.
Пы Сы Насколько понял знания xpath нужны, поэтому думаю изучить вот это http://www.w3schools.com/xsl/xpath_intro.asp
Python
1
2
3
4
5
6
import requests
from lxml import html
page = requests.get('http://econpy.pythonanywhere.com/ex/001.htm')
tree = html.fromstring(page.content)
buyers = tree.xpath('//div[@title="buyer-name"]/text()')
prices = tree.xpath('//span[@class="item-price"]/text()')
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
05.04.2016, 16:37
Ответы с готовыми решениями:

Scraping
Подскажите пожалуйста как вытащить информацию с data-phone-number <span title="Перевірений телефон" class="phone...

Почему xpath в xpather работает как надо, а html.xpath обрезает последний элемент
Тут все ок. http://xpather.com/QdzC7iC7 Добавляю выражение для скрипта, но там обрезается артикул: import requests_html from...

Задача 6. Web scraping
Задача 6. Web scraping Что нужно сделать Дан несложный пример HTML-страницы: Sample Web Page. Изучите код этой страницы и...

50
05.04.2016, 16:42

Не по теме:

Я бы на твоем месте лучше с cssselect знакомился, более часто используемая и полезная штука

0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5906 / 3358 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
05.04.2016, 16:55
а я бы посоветовал быть более внимательным при копировании и отличать htm и html - абсолютно разные вещи.
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 16:55
Не работало все у тебя из-за неправильно url
Python
1
2
3
4
5
6
7
8
9
10
11
import requests
from lxml import html
 
page = requests.get('http://econpy.pythonanywhere.com/ex/001.html')
parser = html.fromstring(page.text)
 
buyers = parser.cssselect('div[title="buyer-info"] div')
prices = parser.cssselect('span.item-price')
 
print(list(map(lambda i: i.text, buyers)))
print(list(map(lambda i: i.text, prices)))
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
05.04.2016, 17:07  [ТС]
Python
1
2
3
4
5
6
7
8
9
import requests
from lxml import html
page = requests.get('http://econpy.pythonanywhere.com/ex/001.html')#Получаем веб страницу, r-объект-отклик
tree = html.fromstring(page.content)
#print(page.content)
#This will create a list of buyers:
buyers = tree.xpath('//div[@title="buyer-name"]/text()')
#This will create a list of prices
prices = tree.xpath('//span[@class="item-price"]/text()')
да, извиняюсь, вот работает, но вопрос остаался прежним, как мне дополнить вот этот код, чтобы забрать со всех страничек.Алекс, ваш код запустил в интерпретаторе и выдало ошибку.
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5906 / 3358 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
05.04.2016, 17:11
подсказка:

Python
1
print(tree.xpath('//a/@href'))
Добавлено через 26 секунд
Цитата Сообщение от izuchaju_python Посмотреть сообщение
Алекс, ваш код запустил в интерпретаторе и выдало ошибку.
cssselect нужно отдельно ставить
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 17:12
izuchaju_python, ты ошибку то выложил бы, а то так это безсмысленное сообщение.
Вообще вангую, что ошибка об отсутствие библиотеки cssselect.

Что касается того как собрать информацию со всех страниц, то тут все тривиально. Просто делаешь несколько запросов с помощью цикла и все
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
05.04.2016, 18:20  [ТС]
alex925, Да, из-за отсутствия, извиняюсь, новичок, еще толком не разобрался что к чему...

Добавлено через 2 минуты
скажите, xpath нужны? стоит их учить?
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5906 / 3358 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
05.04.2016, 18:21
учите и их и css селекторы, не ошибетесь
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
05.04.2016, 18:24  [ТС]
cssselect, еще б знать, как его ставить на пк...
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 18:25
izuchaju_python, лично я пока не сталкивался, что бы мне нужны были знания xpath. Везде можно использовать cssselectors. Они на мой взгляд проще читаются и больше распространены, по этому их использую.
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5906 / 3358 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
05.04.2016, 18:25
все банально,
Code
1
pip install cssselect
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 18:25
izuchaju_python, pip install cssselect
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
05.04.2016, 18:28  [ТС]
alex925, Jabbson,
Миниатюры
Xpath and Scraping  
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 18:33
izuchaju_python, ну все, модуль установлен.
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
05.04.2016, 18:34  [ТС]
ничего не получается, ваш код пытался запустить ===> результат===>
Миниатюры
Xpath and Scraping  
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 18:39
Ты наверно для python 2 поставил либу, запусти команду pip3 install cssselect
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5906 / 3358 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
05.04.2016, 18:43
Цитата Сообщение от alex925 Посмотреть сообщение
Ты наверно для python 2 поставил либу, запусти команду pip3 install cssselect
причина пользоваться virtualenv

использование pycharm тоже помогает, если ставить из под него модули.
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
05.04.2016, 18:47  [ТС]
alex925, thank you very much!

Добавлено через 2 минуты
Jabbson, спасибо за совет. Теперь можно постараться дописать программу. Спасибо alex925,
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 18:55
Jabbson, да нет, это не из той серии. Виртуальное окружение полезно, когда нужно иметь несколько версий одного и того же модуля, а тут просто по ошибке поставил библиотеку не для того интерпретатора.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
05.04.2016, 18:55
Помогаю со студенческими работами здесь

Web scraping и переменные
Добрый ден, я начал изучать программирование и так как приходилось наблюдать за работой людей на nodejs, решил начать именно с него. ...

Web-Scraping Python
https://sbis.ru/contragents?p=contragents Есть сайт компаний, не могу понять как получить ссылку на компанию, нахожу div'ы ячейки, но там...

WEB-Scraping Интернет-магазина
Добрый день, дорогие форумчане! Начинаю изучать Python, поэтому буду благодарен вам за любую помощь. Пытаюсь спарсить ряд параметров с...

HtmlUnit financial website web scraping
Нужна помощь с вытаскиванием таблицы из сайта: https://www.cyberforum.ru/web-mastering/thread1553491.html ...

Выбор django или Scraping + Data Mining
Здравствуйте. Усилено изучаю пайтон. Прошел момент практического выбора чем именно заняться, из двух направлений, и насколько они...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Ответ Создать тему
Новые блоги и статьи
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
Фото: Daniel Greenwood
kumehtar 13.11.2025
Расскажи мне о Мире, бродяга
kumehtar 12.11.2025
— Расскажи мне о Мире, бродяга, Ты же видел моря и метели. Как сменялись короны и стяги, Как эпохи стрелою летели. - Этот мир — это крылья и горы, Снег и пламя, любовь и тревоги, И бескрайние. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru