Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск  
 
 
Рейтинг 4.85/13: Рейтинг темы: голосов - 13, средняя оценка - 4.85
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431

Xpath and Scraping

05.04.2016, 16:37. Показов 2941. Ответов 50
Метки нет (Все метки)

Вот страница
http://econpy.pythonanywhere.com/ex/001.html
хочу получить два списка,закупщик и цена, есть несколько вопросов, как получить все страницы, дополнив код, который я покажу и вопрос насчет xpath, как получился именно такой, как в коде.
Пы Сы Насколько понял знания xpath нужны, поэтому думаю изучить вот это http://www.w3schools.com/xsl/xpath_intro.asp
Python
1
2
3
4
5
6
import requests
from lxml import html
page = requests.get('http://econpy.pythonanywhere.com/ex/001.htm')
tree = html.fromstring(page.content)
buyers = tree.xpath('//div[@title="buyer-name"]/text()')
prices = tree.xpath('//span[@class="item-price"]/text()')
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
05.04.2016, 16:37
Ответы с готовыми решениями:

Scraping
Подскажите пожалуйста как вытащить информацию с data-phone-number <span title="Перевірений телефон" class="phone...

Почему xpath в xpather работает как надо, а html.xpath обрезает последний элемент
Тут все ок. http://xpather.com/QdzC7iC7 Добавляю выражение для скрипта, но там обрезается артикул: import requests_html from...

Задача 6. Web scraping
Задача 6. Web scraping Что нужно сделать Дан несложный пример HTML-страницы: Sample Web Page. Изучите код этой страницы и...

50
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
05.04.2016, 19:06
Цитата Сообщение от alex925 Посмотреть сообщение
Jabbson, да нет, это не из той серии. Виртуальное окружение полезно, когда нужно иметь несколько версий одного и того же модуля, а тут просто по ошибке поставил библиотеку не для того интерпретатора.
не, я не имею ввиду, что это основная причина иметь вирт, но когда в окружении делаешь pip install X, точно знаешь, куда именно поставится твой пакет.
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 19:20
Ну без виртуального окружения я тоже знаю куда поставится пакет. pip поставит в в двойку, pip3 в тройку.
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
05.04.2016, 19:24
да, я тоже так думал, пока у меня не случилось вот так:

Code
1
2
3
4
netland@debian:/usr/local/bin$ pip -V
pip 8.1.1 from /usr/local/lib/python3.4/dist-packages (python 3.4)
netland@debian:/usr/local/bin$ pip3 -V
pip 8.1.1 from /usr/local/lib/python3.4/dist-packages (python 3.4)
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 19:26
Эммм, это как? alias был создан?
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
05.04.2016, 19:27
нет, все нативно, случается у меня, на самом деле не первый раз на 8 дебиане.

Code
1
2
3
4
5
6
7
8
9
netland@debian:/usr/local/bin$ ls -al
total 28
drwxrwsr-x  2 root staff 4096 Apr  3 15:56 .
drwxrwsr-x 10 root staff 4096 Apr  3 12:58 ..
-rwxr-xr-x  1 root staff  205 Apr  3 14:36 pip
-rwxr-xr-x  1 root staff  204 Apr  3 15:56 pip2
-rwxr-xr-x  1 root staff  204 Apr  3 15:56 pip2.7
-rwxr-xr-x  1 root staff  205 Apr  3 14:36 pip3
-rwxr-xr-x  1 root staff  205 Apr  3 14:36 pip3.4
никаких ссылок, никаких алиасов
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
05.04.2016, 19:38
У меня тоже debian 8, не замечал ни разу такого.
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
05.04.2016, 19:45
я думаю, это из-за того, что python3-pip ставит pip в /usr/local/bin, который в PATH у меня до /usr/bin

потому что системный, который теперь не удаляется - в порядке
Code
1
2
netland@debian:/usr/local/bin$ /usr/bin/pip -V
pip 1.5.6 from /usr/lib/python2.7/dist-packages (python 2.7)
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
07.04.2016, 00:11  [ТС]
А не подскажите, как cssselect в анаконду загрузить? а то моя ide через нее работает. поэтому файлы с cssselect через терминал запускаются, а через ide нет.
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
07.04.2016, 00:14
conda install cssselect пробовали?
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
07.04.2016, 11:33  [ТС]
Jabbson, Команда не найдена.

Добавлено через 10 минут
Jabbson, в принципе поменял настройки wing ide на поиск пайтона не с анаконды, а с системы...но все-таки для расширения кругозора хотел бы узнать как...кстати, а в 2-х словах можете сказать для чего нужна анаконда?если есть уже обычный питон?
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
07.04.2016, 13:08
http://conda.pydata.org/docs/intro.html

Добавлено через 2 минуты
Цитата Сообщение от izuchaju_python Посмотреть сообщение
Jabbson, Команда не найдена.
возможно сначала нужно переключиться в окружение
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
09.04.2016, 15:43  [ТС]
Python
1
2
3
4
5
6
7
8
9
10
11
12
import requests
from bs4 import BeautifulSoup
r = requests.get('http://econpy.pythonanywhere.com/ex/001.html')
page = BeautifulSoup(r.text, 'html.parser')
#print(page.title)
#print(page.body.span)
rows = page.body.findAll('span')
price = []
for i, row in enumerate(rows):
    #print(i)
    price.append(row.string)
    #print(row.string)
rows = page.body.findAll('span')- нашел все спаны, а это цена и поместил их в список.
как найти имена ? <div title="buyer-name">Carson Busses</div> ??
ума не приложу пока что...если кто подскажет, то мое изучение пойдет быстрее, thanks.
P.S.for i, row in enumerate(rows):- прокомментируйте это, а то такое увидел в интернете и решил повторить, смысла не знаю пока что...
П.П.С документацию читать начал.
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
09.04.2016, 16:52
А чем не подходит решение на lxml?

Добавлено через 32 минуты
p.s.>
Python
1
rows = page.body.findAll('div', attrs={'title': 'buyer-name'})
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
09.04.2016, 17:41  [ТС]
Jabbson, хочу суп для начала выучить, а со временем и за lxml возьмусь=) да и решение мне никогда не нужно было ни в одной теме пока что, мне бы смысл уловить, спасибо за ответ)

Добавлено через 19 минут
Jabbson,
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
import requests
from bs4 import BeautifulSoup
url = 'http://econpy.pythonanywhere.com/ex/00'
number = 1
end = '.html'
r = requests.get(url+str(number)+end)
page = BeautifulSoup(r.text, 'html.parser')
#print(page.title)
#print(page.body.span)
rows = page.body.findAll('span')
price = []
name = []
for i in range(5):
    for i, row in enumerate(rows):
        price.append(row.string)
        rows = page.body.findAll('div', attrs={'title': 'buyer-name'})
    for i, row in enumerate(rows):
        name.append(row.string)    
    number+=1
Вот, что вышло, доволен, но чтобы быть, как слон хочу в Excel файл поместить инфу в 2 колонки: имена и цена. только как это сделать вообще ума не приложу...
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
09.04.2016, 19:03
Цитата Сообщение от izuchaju_python Посмотреть сообщение
доволен
зря, Вы 5 раз одно и тоже записываете в лист

Добавлено через 8 минут
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import requests
from bs4 import BeautifulSoup
url = 'http://econpy.pythonanywhere.com/ex/00{}.html'
 
names = ['name', '-'*24]
prices = ['price', '-'*10]
 
for i in range(1, 6):
    r = requests.get(url.format(i))
    page = BeautifulSoup(r.text, 'html.parser')
    names.extend(x.string for x in page.body.findAll('div', attrs={'title': 'buyer-name'}))
    prices.extend(x.string for x in page.body.findAll('span'))
 
 
for name, price in zip(names, prices):
    print('{:<25}{}'.format(name, price))
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
09.04.2016, 19:44  [ТС]
Jabbson, да...нужно мой код доработать..завтра , постараюсь, сделать...подскажите как записать в файл, а то не выходит такая элементарщина...
Python
1
2
3
4
for name, price in zip(names, prices):
    #print('{:<25}{}'.format(name, price))
    with open('price.txt','a') as f:
        f.write('{:<25}{}'.format(name, price))
а в иксель файл вообще можно как-то записать?
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
09.04.2016, 20:52
izuchaju_python, можно. Используй или какой нибудь модуль создающий файл или можно работать с excel фалом как c html страницей с определенной разметкой.
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
09.04.2016, 21:23  [ТС]
alex925, посмотрите , пожалуйста мое сообщение выше, как код в txt записать, а то что-то выходит криво, подскажите, пожалуйста.
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
09.04.2016, 21:35
izuchaju_python, просто не надо пытаться открывать файл в цикле. Сам сейчас прокрути в голове, что интерпретатор делает.....
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
09.04.2016, 22:43
Цитата Сообщение от alex925 Посмотреть сообщение
Используй или какой нибудь модуль создающий файл
поддерживаю, openpyxl, xlwt, и пишите свои экселины.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
09.04.2016, 22:43

Web scraping и переменные
Добрый ден, я начал изучать программирование и так как приходилось наблюдать за работой людей на nodejs, решил начать именно с него. ...

Web-Scraping Python
https://sbis.ru/contragents?p=contragents Есть сайт компаний, не могу понять как получить ссылку на компанию, нахожу div'ы ячейки, но там...

WEB-Scraping Интернет-магазина
Добрый день, дорогие форумчане! Начинаю изучать Python, поэтому буду благодарен вам за любую помощь. Пытаюсь спарсить ряд параметров с...

HtmlUnit financial website web scraping
Нужна помощь с вытаскиванием таблицы из сайта: https://www.cyberforum.ru/web-mastering/thread1553491.html ...

Выбор django или Scraping + Data Mining
Здравствуйте. Усилено изучаю пайтон. Прошел момент практического выбора чем именно заняться, из двух направлений, и насколько они...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
40
Ответ Создать тему
Новые блоги и статьи
[golang] Конкурентный fetcher с ограничением максимального количества одновременных HTTP запросов.
alhaos 10.06.2026
Задача Реализовать конкурентный fetcher с ограничением максимального количества одновременных HTTP запросов. Сигнатура func Fetch(urls string, maxConcurrent int) Result Пример urls :=. . .
[golang] Состояние гонки (race condition)
alhaos 10.06.2026
Состояние гонки (race condition) Состояние гонки (Race Condition) — это ошибка, возникающая при одновременном доступе нескольких горутин к одним и тем же данным без должной синхронизации. При этом. . .
Взрослые отношения, и почему они не получаются
kumehtar 09.06.2026
Когда в детстве ребёнок не получает от родителей чего-то важного, он лишается не просто приятных переживаний, а основы для формирования определённых внутренних качеств и навыков. Если ребёнок не. . .
[golang] Worker Pool
alhaos 09.06.2026
Worker Pool Worker Pool — паттерн конкурентной обработки задач в Go. Суть: фиксированное количество горутин-воркеров читают задачи из общего канала и пишут результаты в общий канал результатов. . . .
[golang] Pipeline
alhaos 08.06.2026
Pipeline Pipeline — паттерн конкурентной обработки данных в Go. Суть: данные проходят через цепочку независимых стадий, каждая из которых работает в своей горутине и общается с соседями через. . .
Свет внутри себя
kumehtar 07.06.2026
Пусть это будет здесь lIs4oanZS9Y
Программа для com-порта
Uhbif79 05.06.2026
Всем привет, давно хотел изучить Qt, начинал, бросал, потом снова начинал. И сейчас вот смог написать свою первую программу. До этого имел опыт программирования микроконтроллеров, писал прошивки на. . .
Транскрипция 55-минутного видео через Whisper: WhisperDesktop облажался, спас Google Colab[
anaschu 01.06.2026
Понадобилось получить текст из свежезагруженного видео на YouTube. Казалось бы, задача на пять минут. Заняла полтора часа. Делюсь опытом — может кому пригодится последовательность решений. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru