С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.64/11: Рейтинг темы: голосов - 11, средняя оценка - 4.64
10 / 10 / 5
Регистрация: 31.01.2015
Сообщений: 120

Парсинг HTML

01.02.2017, 17:48. Показов 2114. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Ну в общем, довольно заезженная тема, проведя на просторах интернета несколько часов, я это понял. Но вопросы все же остались. Суть проблемы, нужно пропарсить сайт - вытащить фотки и названия их соответственно (имя файла == имя продукта). Проблема в том, что сайт табличный и чтобы не перепутать пункт (имя файла == имя продукта) я вытаскиваю целые элементы посредством grab
Python
1
2
3
g = Grab()
g.go(main_url)
url_block = g.doc.select('//td[@width="50%"]')[0:]
Получаем массив элементов, потом через цикл
Python
1
2
3
for elem in url_block:
    html = elem.html()
    print (html)
получаем html каждого блока и вот тут загвоздка - переменная html становится строкой. Мне нужно вытащить оттуда две строчки, основываясь на селекторах, но как к ним обратиться? Я уже поглядываю в сторону регулярных выражений, но чую, что можно и проще сделать. Как - не знаю. Прошу помощи покорнейше
З.Ы. Я не тупой, мне просто нужен пинок в правильном направлении
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
01.02.2017, 17:48
Ответы с готовыми решениями:

Парсинг JS в HTML
При помощи bs4 спарсил html страницу и в ней есть строка для примера var Variable =...

Парсинг html
Здравстувуйте. Начинаю изучать python. В качестве тренировочной задачи делаю такую Есть html страница. В ней есть столбец имя...

Парсинг html страницы
хочу сделать автоматическое скачивание файлов по ключевому слову на картинке есть кнопка которая выдаёт ссылку на скачку(первая...

4
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
01.02.2017, 18:40
Вы или код дайте или сайт, чтобы нам было с чем работать.
0
10 / 10 / 5
Регистрация: 31.01.2015
Сообщений: 120
01.02.2017, 19:21  [ТС]
http://complexpro.ru/category_3.html имеется подобный сайт, мне нужна информация о товарах, конкретнее - его имя и ссылку на изображение. Все эти данные хранятся в таблице, блок
HTML5
1
<td width="50%"></td>
его я выдергиваю
Python
1
url_block = g.doc.select('//td[@width="50%"]')[0:]
получаю список эелементов подобного типа - <selection.backend.XpathSelector object at 0x036B7FF0> и с помощью
Python
1
2
3
for elem in url_block:
    html = elem.html()
    print (elem)
прохожусь по каждому элементу полученного массива - вытаскиваю html. Но он теперь строка, как уже этот эллемент распарсить?
Цитата Сообщение от Jabbson Посмотреть сообщение
код дайте
По сути все, что у меня было, я дал. Остальные куски не имеют к парсингу никакого отношения.
Если я неправильно выбрал направление - я с Питоном на Вы
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
01.02.2017, 20:49
Лучший ответ Сообщение было отмечено Golden Jack как решение

Решение

Не помню как это делается в grab, а в православном lxml так:
Python
1
2
3
4
5
6
7
tree = lxml.html.fromstring(page.text)
imbox = tree.cssselect('td.imboxl')  # все что нужно есть в элементах этого класса
 
for elem in imbox:
     print(elem[0][0].attrib['alt'])     #  имя товара гораздо удобнее прочитать прямо отсюда нежели из соседней таблицы
     print(elem[0][0].attrib['src'])    #  ссылка на изображение в виде data/small/a3_2.jpg"
     print(elem[0].attrib['href'])       #  ссылка на изображение в виде data/big/a3_3.jpg
Добавлено через 14 минут
Собственно, результат парсинга:
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
011-Клевер гладкий TABOSS (26.7x21.8x6)
data/small/a3_2.jpg
data/big/a3_2.jpg
012-Клевер гладкий TABOSS (половинки поперечные 6 см)
data/small/a4_1.jpg
data/big/a4_1.jpg
013-Клевер гладкий TABOSS (половинки продольные 6 см)
data/small/a5_1.jpg
data/big/a5_1.jpg
014-Клевер штамп TABOSS (26.7x21.8x6)
data/small/a8_2.jpg
data/big/a8_2.jpg
020-Маг TABOSS (половинки поперечные 6 см)
data/small/83.jpg
data/big/83.jpg
021-Маг TABOSS (половинки продольные 6 см)
data/small/82.jpg
data/big/82.jpg
022-Катушка шагрень TABOSS (22.5x8.8x6)
data/small/22_1.jpg
data/big/22_1.jpg
...
1
10 / 10 / 5
Регистрация: 31.01.2015
Сообщений: 120
01.02.2017, 20:53  [ТС]
Благодарю, это именно то, что было нужно. Просто по lxml мало толковых примеров на русском, а с инглишом у меня проблемы, два пишем три в уме. Спасибо
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
01.02.2017, 20:53
Помогаю со студенческими работами здесь

Парсинг залогиненной html страницы
есть код import requests from json import loads from bs4 import BeautifulSoup import re from selenium import webdriver ...

Парсинг html страницы картинок
Здравствуйте. Есть код: import requests from bs4 import BeautifulSoup as bs import random import lxml.html r =...

Парсинг и замена текста в html (python3)
Приветствую Друзья, если не затруднит, подскажите решение для python3. Есть некий html файл, вполне себе стандартный, в нем среди...

Парсинг html
Доброго времени суток, столкнулся с такой проблемой, как парсить теги h2 которые находятся в классе post__content typeset, при этом точно...

Парсинг HTML
У меня есть html документ, в котором записаны результаты матчей по теннису. Из данного html документа мне нужно получить названия лиг и...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит токи на L и напряжения на C в установ. режимах до и. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Изучаю kubernetes
lagorue 13.01.2026
А пригодятся-ли мне знания kubernetes в России?
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru