Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.64/11: Рейтинг темы: голосов - 11, средняя оценка - 4.64
10 / 10 / 5
Регистрация: 31.01.2015
Сообщений: 120

Парсинг HTML

01.02.2017, 17:48. Показов 2139. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Ну в общем, довольно заезженная тема, проведя на просторах интернета несколько часов, я это понял. Но вопросы все же остались. Суть проблемы, нужно пропарсить сайт - вытащить фотки и названия их соответственно (имя файла == имя продукта). Проблема в том, что сайт табличный и чтобы не перепутать пункт (имя файла == имя продукта) я вытаскиваю целые элементы посредством grab
Python
1
2
3
g = Grab()
g.go(main_url)
url_block = g.doc.select('//td[@width="50%"]')[0:]
Получаем массив элементов, потом через цикл
Python
1
2
3
for elem in url_block:
    html = elem.html()
    print (html)
получаем html каждого блока и вот тут загвоздка - переменная html становится строкой. Мне нужно вытащить оттуда две строчки, основываясь на селекторах, но как к ним обратиться? Я уже поглядываю в сторону регулярных выражений, но чую, что можно и проще сделать. Как - не знаю. Прошу помощи покорнейше
З.Ы. Я не тупой, мне просто нужен пинок в правильном направлении
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
01.02.2017, 17:48
Ответы с готовыми решениями:

Парсинг JS в HTML
При помощи bs4 спарсил html страницу и в ней есть строка для примера var Variable =...

Парсинг html
Здравстувуйте. Начинаю изучать python. В качестве тренировочной задачи делаю такую Есть html страница. В ней есть столбец имя...

Парсинг html страницы
хочу сделать автоматическое скачивание файлов по ключевому слову на картинке есть кнопка которая выдаёт ссылку на скачку(первая...

4
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
01.02.2017, 18:40
Вы или код дайте или сайт, чтобы нам было с чем работать.
0
10 / 10 / 5
Регистрация: 31.01.2015
Сообщений: 120
01.02.2017, 19:21  [ТС]
http://complexpro.ru/category_3.html имеется подобный сайт, мне нужна информация о товарах, конкретнее - его имя и ссылку на изображение. Все эти данные хранятся в таблице, блок
HTML5
1
<td width="50%"></td>
его я выдергиваю
Python
1
url_block = g.doc.select('//td[@width="50%"]')[0:]
получаю список эелементов подобного типа - <selection.backend.XpathSelector object at 0x036B7FF0> и с помощью
Python
1
2
3
for elem in url_block:
    html = elem.html()
    print (elem)
прохожусь по каждому элементу полученного массива - вытаскиваю html. Но он теперь строка, как уже этот эллемент распарсить?
Цитата Сообщение от Jabbson Посмотреть сообщение
код дайте
По сути все, что у меня было, я дал. Остальные куски не имеют к парсингу никакого отношения.
Если я неправильно выбрал направление - я с Питоном на Вы
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
01.02.2017, 20:49
Лучший ответ Сообщение было отмечено Golden Jack как решение

Решение

Не помню как это делается в grab, а в православном lxml так:
Python
1
2
3
4
5
6
7
tree = lxml.html.fromstring(page.text)
imbox = tree.cssselect('td.imboxl')  # все что нужно есть в элементах этого класса
 
for elem in imbox:
     print(elem[0][0].attrib['alt'])     #  имя товара гораздо удобнее прочитать прямо отсюда нежели из соседней таблицы
     print(elem[0][0].attrib['src'])    #  ссылка на изображение в виде data/small/a3_2.jpg"
     print(elem[0].attrib['href'])       #  ссылка на изображение в виде data/big/a3_3.jpg
Добавлено через 14 минут
Собственно, результат парсинга:
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
011-Клевер гладкий TABOSS (26.7x21.8x6)
data/small/a3_2.jpg
data/big/a3_2.jpg
012-Клевер гладкий TABOSS (половинки поперечные 6 см)
data/small/a4_1.jpg
data/big/a4_1.jpg
013-Клевер гладкий TABOSS (половинки продольные 6 см)
data/small/a5_1.jpg
data/big/a5_1.jpg
014-Клевер штамп TABOSS (26.7x21.8x6)
data/small/a8_2.jpg
data/big/a8_2.jpg
020-Маг TABOSS (половинки поперечные 6 см)
data/small/83.jpg
data/big/83.jpg
021-Маг TABOSS (половинки продольные 6 см)
data/small/82.jpg
data/big/82.jpg
022-Катушка шагрень TABOSS (22.5x8.8x6)
data/small/22_1.jpg
data/big/22_1.jpg
...
1
10 / 10 / 5
Регистрация: 31.01.2015
Сообщений: 120
01.02.2017, 20:53  [ТС]
Благодарю, это именно то, что было нужно. Просто по lxml мало толковых примеров на русском, а с инглишом у меня проблемы, два пишем три в уме. Спасибо
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
01.02.2017, 20:53
Помогаю со студенческими работами здесь

Парсинг залогиненной html страницы
есть код import requests from json import loads from bs4 import BeautifulSoup import re from selenium import webdriver ...

Парсинг html страницы картинок
Здравствуйте. Есть код: import requests from bs4 import BeautifulSoup as bs import random import lxml.html r =...

Парсинг и замена текста в html (python3)
Приветствую Друзья, если не затруднит, подскажите решение для python3. Есть некий html файл, вполне себе стандартный, в нем среди...

Парсинг html
Доброго времени суток, столкнулся с такой проблемой, как парсить теги h2 которые находятся в классе post__content typeset, при этом точно...

Парсинг HTML
У меня есть html документ, в котором записаны результаты матчей по теннису. Из данного html документа мне нужно получить названия лиг и...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
Дальние перспективы сервера - слоя сети с космологическим дизайном интефейса карты и логики.
Hrethgir 07.04.2026
Дальнейшее ближайшее планирование вывело к размышлениям над дальними перспективами. И вот тут может быть даже будут нужны оценки специалистов, так как в дальних перспективах всё может очень сильно. . .
Горе от ума
kumehtar 07.04.2026
Эта мне ментальная установка, что вот прямо сейчас, мол, мне для полного счастья не хватает (нужное вписать), и когда я этого достигну - тогда и полный кайф. Одна из самых сильных ловушек на пути. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru