Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 4.85/13: Рейтинг темы: голосов - 13, средняя оценка - 4.85
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431

Xpath and Scraping

05.04.2016, 16:37. Показов 2762. Ответов 50
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Вот страница
http://econpy.pythonanywhere.com/ex/001.html
хочу получить два списка,закупщик и цена, есть несколько вопросов, как получить все страницы, дополнив код, который я покажу и вопрос насчет xpath, как получился именно такой, как в коде.
Пы Сы Насколько понял знания xpath нужны, поэтому думаю изучить вот это http://www.w3schools.com/xsl/xpath_intro.asp
Python
1
2
3
4
5
6
import requests
from lxml import html
page = requests.get('http://econpy.pythonanywhere.com/ex/001.htm')
tree = html.fromstring(page.content)
buyers = tree.xpath('//div[@title="buyer-name"]/text()')
prices = tree.xpath('//span[@class="item-price"]/text()')
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
05.04.2016, 16:37
Ответы с готовыми решениями:

Scraping
Подскажите пожалуйста как вытащить информацию с data-phone-number <span title="Перевірений телефон" class="phone...

Почему xpath в xpather работает как надо, а html.xpath обрезает последний элемент
Тут все ок. http://xpather.com/QdzC7iC7 Добавляю выражение для скрипта, но там обрезается артикул: import requests_html from...

Задача 6. Web scraping
Задача 6. Web scraping Что нужно сделать Дан несложный пример HTML-страницы: Sample Web Page. Изучите код этой страницы и...

50
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
10.04.2016, 17:29  [ТС]
Студворк — интернет-сервис помощи студентам
Jabbson, alex925,
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import requests
from bs4 import BeautifulSoup
url = 'http://econpy.pythonanywhere.com/ex/00'
number = 1
end = '.html'
prices = []
names = []
for i in range(5):
    r = requests.get(url+str(number)+end)
    page = BeautifulSoup(r.text, 'html.parser')
    rows = page.body.findAll('span')
    for i, row in enumerate(rows):
        prices.append(row.string)
        rows = page.body.findAll('div', attrs={'title': 'buyer-name'})
    for i, row in enumerate(rows):
        names.append(row.string)    
    number+=1
for name, price in zip(names, prices):
    print('{:<25}{}'.format(name, price))
with open('price.txt','w') as f:
    for i in names:
        f.write(i)
        f.write('\n')
подскажите, пожалуйста, как в файл price.txt мне дописать рядом с именем цену? нужен цикл, чувствую это, но вот куда его приписать ума не приложу...
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
10.04.2016, 17:35
Извини конечно, но я с тебя фигею
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import requests
from bs4 import BeautifulSoup
 
url = 'http://econpy.pythonanywhere.com/ex/00{}.html'
prices = []
names = []
 
for i in range(1, 6):
    r = requests.get(url.format(i))
    page = BeautifulSoup(r.text, 'html.parser')
    rows = page.body.findAll('span')
    for row in rows:
        prices.append(row.string)
        rows = page.body.findAll('div', attrs={'title': 'buyer-name'})
    for row in rows:
        names.append(row.string)
 
with open('price.txt', 'w') as out:
    for name, price in zip(names, prices):
        out.write('{:<25}{}\n'.format(name, price))
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
10.04.2016, 17:41  [ТС]
alex925, Даже путь в тысячу ли начинается с первого шага.

Добавлено через 2 минуты
тем более до этого я толком и не имел опыта ни с zip, ни с format.
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
10.04.2016, 17:44
izuchaju_python, ты или совсем не понимаешь, что делаешь или просто прикалываешься. У тебя в строке 19 написано именно то, что ты хочешь сделать, а ты спрашиваешь как это сделать....

Цитата Сообщение от izuchaju_python Посмотреть сообщение
тем более до этого я толком и не имел опыта ни с zip, ни с format.
Я все понимаю, но ничего тебе не мешает окрылять интернет или книгу и прочесть, что делают эти функции. У Лутца и первая и вторая функции объясняются.
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
10.04.2016, 18:17  [ТС]
alex925, согласен, буду еще больше гуглить и листать учебник перед вопросом.
P.S.С xlwt пока ничего толком не получилось..пока что..."ws.write(2, 0, 'вторая ячейка нулевого столбца')", такое записывается, а как это циклом...чтобы получить результат...ладно, пойду почитаю документацию...
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
10.04.2016, 18:37
izuchaju_python, да в этом вопросе тебе не надо было гуглить. Еще раз говорю, то, что тебе было нужно уже находилось в твоем коде в 19 строке, тебе нужно было только поменять 2 строки местами.

Изменения, которые я внес в код, просто делают его немного более культурным.
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
10.04.2016, 18:56  [ТС]
alex925, help me, ни документация (http://xlwt.readthedocs.org/en/latest/api.html) , ни высшие силы не могут мне дать понять xlwt ,
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import xlwt
wb = xlwt.Workbook()
ws = wb.add_sheet('результат')
 
ws.write(0, 0, 'нулевая ячейка')
ws.write(1, 0, 'первая ячейка нулевого столбца')
ws.write(2, 0, 'вторая ячейка нулевого столбца')
ws.write(0, 1, "нулевая ячейка первого столбца")
 
#a = 1
#v = 0
#g = 0
#while a != 30:
    #ws.write(v,g,a)
    #v+=1
    #a+=3
    
    
# с 10 по 16 столбец думал циклом в иксель загнать цифры, но получил это
#ValueError("row index was %r, not allowed by .xls format" % rowx)
 
 
 
wb.save('prices.xls')
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
10.04.2016, 20:54
izuchaju_python, Я таким макаром не создавал документы. Я создавал документы с помощью html разметки. Там делаешь страницу в определенном формате и у документа делаешь расширение не html, а xls.
В итоге любой офис открывает этот документ как ты ожидаешь.

С этим пакетом тебе Jabbson может помочь думаю, он с ним работал или игрался.
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5906 / 3358 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
10.04.2016, 21:39
Лучший ответ Сообщение было отмечено izuchaju_python как решение

Решение

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import requests
from bs4 import BeautifulSoup
import xlwt
 
url = 'http://econpy.pythonanywhere.com/ex/00{}.html'
 
names = []
prices = []
 
for i in range(1, 6):
    r = requests.get(url.format(i))
    page = BeautifulSoup(r.text, 'html.parser')
    names.extend(x.string for x in page.body.findAll('div', attrs={'title': 'buyer-name'}))
    prices.extend(x.string for x in page.body.findAll('span'))
 
 
wb = xlwt.Workbook()
ws = wb.add_sheet('результат')
 
for i, (name, price) in enumerate(zip(names, prices)):
    ws.write(i, 0, name)
    ws.write(i, 1, price)
 
wb.save('prices.xls')
0
20 / 21 / 6
Регистрация: 30.06.2015
Сообщений: 431
10.04.2016, 21:47  [ТС]
alex925, а можете подробнее о вашем методе рассказать?

Добавлено через 2 минуты
Jabbson, спасибо, разберу ваш код, xlwt выглядет довольно простой...а почему вот это не сработало у меня, подскажите, пожалуйста..
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import xlwt
wb = xlwt.Workbook()
ws = wb.add_sheet('результат')
 
ws.write(0, 0, 'нулевая ячейка')
ws.write(1, 0, 'первая ячейка нулевого столбца')
ws.write(2, 0, 'вторая ячейка нулевого столбца')
ws.write(0, 1, "нулевая ячейка первого столбца")
 
#a = 1
#v = 0
#g = 0
#while a != 30:
    #ws.write(v,g,a)
    #v+=1
    #a+=3
    
    
# с 10 по 16 столбец думал циклом в иксель загнать цифры, но получил это
#ValueError("row index was %r, not allowed by .xls format" % rowx)
 
 
 
wb.save('prices.xls')
10-16 столбец.
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
10.04.2016, 21:57
Цитата Сообщение от izuchaju_python Посмотреть сообщение
а можете подробнее о вашем методе рассказать?
- создаешь в офисе документ в нужном тебе формате
- потом сохраняешь его как html
- открываешь файл в браузере и смотришь места, которые хочешь изменить
- затем удаляешь шаблонные данные (которые ты вбил при создании документа) и с помощью шаблонизатора оформляешь все в виде шаблона (jinja2), который будет заполнять все отправленными туда данными

Ну и все, автогенерилка документов есть. Я таким образом создавал doc. Заказчик просто хотел получать отчеты в doc.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
10.04.2016, 21:57
Помогаю со студенческими работами здесь

Web scraping и переменные
Добрый ден, я начал изучать программирование и так как приходилось наблюдать за работой людей на nodejs, решил начать именно с него. ...

Web-Scraping Python
https://sbis.ru/contragents?p=contragents Есть сайт компаний, не могу понять как получить ссылку на компанию, нахожу div'ы ячейки, но там...

WEB-Scraping Интернет-магазина
Добрый день, дорогие форумчане! Начинаю изучать Python, поэтому буду благодарен вам за любую помощь. Пытаюсь спарсить ряд параметров с...

HtmlUnit financial website web scraping
Нужна помощь с вытаскиванием таблицы из сайта: https://www.cyberforum.ru/web-mastering/thread1553491.html ...

Выбор django или Scraping + Data Mining
Здравствуйте. Усилено изучаю пайтон. Прошел момент практического выбора чем именно заняться, из двух направлений, и насколько они...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
51
Ответ Создать тему
Новые блоги и статьи
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru