Парсинг HTML

@Golden Jack · Регистрация: 31.01.2015

Студворк — интернет-сервис помощи студентам

Ну в общем, довольно заезженная тема, проведя на просторах интернета несколько часов, я это понял. Но вопросы все же остались. Суть проблемы, нужно пропарсить сайт - вытащить фотки и названия их соответственно (имя файла == имя продукта). Проблема в том, что сайт табличный и чтобы не перепутать пункт (имя файла == имя продукта) я вытаскиваю целые элементы посредством grab

Python
1
2
3
g = Grab()
g.go(main_url)
url_block = g.doc.select('//td[@width="50%"]')[0:]

Получаем массив элементов, потом через цикл

Python
1
2
3
for elem in url_block:
    html = elem.html()
    print (html)

получаем html каждого блока и вот тут загвоздка - переменная html становится строкой. Мне нужно вытащить оттуда две строчки, основываясь на селекторах, но как к ним обратиться? Я уже поглядываю в сторону регулярных выражений, но чую, что можно и проще сделать. Как - не знаю. Прошу помощи покорнейше

З.Ы. Я не тупой, мне просто нужен пинок в правильном направлении

Jabbson · 01.02.2017, 18:40

Вы или код дайте или сайт, чтобы нам было с чем работать.

@Golden Jack · 01.02.2017, 19:21 **[ТС]**

http://complexpro.ru/category_3.html имеется подобный сайт, мне нужна информация о товарах, конкретнее - его имя и ссылку на изображение. Все эти данные хранятся в таблице, блок

HTML5
1
<td width="50%"></td>

его я выдергиваю

Python
1
url_block = g.doc.select('//td[@width="50%"]')[0:]

получаю список эелементов подобного типа - <selection.backend.XpathSelector object at 0x036B7FF0> и с помощью

Python
1
2
3
for elem in url_block:
    html = elem.html()
    print (elem)

прохожусь по каждому элементу полученного массива - вытаскиваю html. Но он теперь строка, как уже этот эллемент распарсить?

Сообщение от Jabbson

код дайте

По сути все, что у меня было, я дал. Остальные куски не имеют к парсингу никакого отношения.
Если я неправильно выбрал направление - я с Питоном на Вы

@Garry Galler · 01.02.2017, 20:49

Не помню как это делается в grab, а в православном lxml так:

Python
1
2
3
4
5
6
7
tree = lxml.html.fromstring(page.text)
imbox = tree.cssselect('td.imboxl')  # все что нужно есть в элементах этого класса
 
for elem in imbox:
     print(elem[0][0].attrib['alt'])     #  имя товара гораздо удобнее прочитать прямо отсюда нежели из соседней таблицы
     print(elem[0][0].attrib['src'])    #  ссылка на изображение в виде data/small/a3_2.jpg"
     print(elem[0].attrib['href'])       #  ссылка на изображение в виде data/big/a3_3.jpg

Добавлено через 14 минут
Собственно, результат парсинга:

Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
011-Клевер гладкий TABOSS (26.7x21.8x6)
data/small/a3_2.jpg
data/big/a3_2.jpg
012-Клевер гладкий TABOSS (половинки поперечные 6 см)
data/small/a4_1.jpg
data/big/a4_1.jpg
013-Клевер гладкий TABOSS (половинки продольные 6 см)
data/small/a5_1.jpg
data/big/a5_1.jpg
014-Клевер штамп TABOSS (26.7x21.8x6)
data/small/a8_2.jpg
data/big/a8_2.jpg
020-Маг TABOSS (половинки поперечные 6 см)
data/small/83.jpg
data/big/83.jpg
021-Маг TABOSS (половинки продольные 6 см)
data/small/82.jpg
data/big/82.jpg
022-Катушка шагрень TABOSS (22.5x8.8x6)
data/small/22_1.jpg
data/big/22_1.jpg
...

@Golden Jack · 01.02.2017, 20:53 **[ТС]**

Благодарю, это именно то, что было нужно. Просто по lxml мало толковых примеров на русском, а с инглишом у меня проблемы, два пишем три в уме. Спасибо

Новые блоги и статьи Все статьи Все блоги /
Подстановка значения реквизита справочника в табличную часть документа Maks 10.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .	Очистка реквизитов документа при копировании Maks 09.04.2026 Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .	модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий anaschu 08.04.2026 https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI	Блокировка документа от изменений, если он открыт у другого пользователя Maks 08.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка. Hrethgir 08.04.2026 Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .	Модель ЗдрввоСохранения 7: больше работников, больше ресурсов. anaschu 08.04.2026 работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ	Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики. Hrethgir 07.04.2026 Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .	Горе от ума kumehtar 07.04.2026 Эта мне ментальная установка, что вот прямо сейчас, мол, мне для полного счастья не хватает (нужное вписать), и когда я этого достигну - тогда и полный кайф. Одна из самых сильных ловушек на пути. . . .

Jabbson 5907 / 3359 / 1036 Регистрация: 03.11.2009 Сообщений: 10,008
	01.02.2017, 18:40
	Вы или код дайте или сайт, чтобы нам было с чем работать. 0

@Golden Jack 10 / 10 / 5 Регистрация: 31.01.2015 Сообщений: 120
	01.02.2017, 20:53 [ТС]
	Благодарю, это именно то, что было нужно. Просто по lxml мало толковых примеров на русском, а с инглишом у меня проблемы, два пишем три в уме. Спасибо 0

Парсинг HTML

Решение