Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.90/29: Рейтинг темы: голосов - 29, средняя оценка - 4.90
0 / 0 / 0
Регистрация: 12.03.2012
Сообщений: 40

Получить все элементы одного класса при парсинге сайта

21.05.2015, 06:26. Показов 6101. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Доброго времени суток.
Проблема заключается в том что при парсинге сайта я получаю только последний элемент, хотя они мне нужны все.
вот код:
Python
1
2
3
4
5
 
page = html.parse(main_domain_stat);
e = page.getroot().\
      find_class('storywrap').\
      pop();
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
21.05.2015, 06:26
Ответы с готовыми решениями:

Не могу получить новые данные при парсинге сайта после обновления страницы
Делаю парсер для фриланс биржи, чтобы получать уведомления о новых заказах. Логика такая: - парсер проходит первый раз, получает все...

При парсинге слов с сайта в массив, все слова записываются в первый индекс
var elements:Elements=document.getElementsByClass("nbl-slimPosterBlock__title") elements.forEach { var...

При парсинге сайта содержание в строке выводится не на языке сайта
Здравствуйте. Помогите решить проблему. Сайт в браузере на русском. Когда я его парсю все содержание в строке выводится на украинском?

3
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
21.05.2015, 10:21
Python
1
2
3
4
page = html.parse(main_domain_stat);
e = page.getroot().find_class('storywrap')
for el in e:
    print el.text_content()
Добавлено через 52 секунды
если покажите сайт и что нужно выковырять - посмотрим вместе.
0
0 / 0 / 0
Регистрация: 12.03.2012
Сообщений: 40
27.05.2015, 10:41  [ТС]
Цитата Сообщение от Jabbson Посмотреть сообщение
если покажите сайт и что нужно выковырять - посмотрим вместе.
сайт http://www.gorno-altaisk.info/
нужна лента новостей, то есть заголовок, текст статьи и ссылка на статью.
И не большой вопрос, как вытащить ссылку, то есть сам тег <a></a> со всем его содержимым? что бы в будущем эту ссылку можно было использовать.
0
2742 / 2341 / 620
Регистрация: 19.03.2012
Сообщений: 8,830
27.05.2015, 12:43
STAVR,
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
import lxml.html
import requests
 
 
def get_data(post):
    print(post.cssselect('h4.storytitle')[0].text_content())
    print(post.cssselect('div.storycontent p')[0].text_content())
    print(post.cssselect('div.storycontent p a')[0].get('href'), '\n\n')
 
page = requests.get('http://www.gorno-altaisk.info/').text
parser = lxml.html.fromstring(page)
 
for i in parser.cssselect('div.storywrap'):
    get_data(i)
В этом примере я просто извлек данные. В своей программе тебе надо будет просто обрабатывать их по другому (складывать в список или ещё как-то).
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
27.05.2015, 12:43
Помогаю со студенческими работами здесь

Как получить разные элементы одного массива для разных объетов класса?
Приветствую. Есть массив String в котором 32 элемента(карты). Есть класс Players. Необходимо написать такой метод getCards, чтобы при...

Ошибка при парсинге сайта
Пытаюсь вынуть с погодного сайта строчку вида дата - температура public List&lt;String&gt; weekParsing() { WebClient client =...

Ошибка при парсинге сайта
Написал код using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.Networking; using...

Неправильная кодировка при парсинге сайта
Когда делаю парс текста с сайта http://code-vk.ru/random/ У меня в memo1 выдает плохую кодировку,что делать? На сайте стоит кодировка...

Ошибка при парсинге страницы сайта
В методе онклик пишу: public void onClick(View v) { Document doc = null; try { doc =...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru