Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
0 / 0 / 0
Регистрация: 15.04.2017
Сообщений: 12

Парсинг блога с bs4

17.11.2017, 15:55. Показов 1028. Ответов 0
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Пробую сделать простой парсер для блога в Живом Журнале - пока только текстовое тело поста, без заголовков и прочего. На странице пользователя обычно 10 постов, часть из них скрыта через "lj-cut" - вместо тела поста ссылка на отдельную страницу, где этот пост в раскрытом виде. Пытаюсь решить через цикл, но он почему-то суммирует только часть из них, причём по несколько раз.
Подскажите, что не так.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
import sys
import nltk
import requests
import string
import re
from nltk import word_tokenize
from bs4 import BeautifulSoup
 
site = 'https://putnik1.livejournal.com'
request = requests.get(site)
soup = BeautifulSoup(request.text, 'lxml')
corp = soup.find_all('div', class_='asset-body') # получаю все куски текста со страницы, помещённых в тег asset-body
texts = []
for i in corp: # для каждого текстового блока (отдельного поста) на странице
     if i.find('a', class_='ljcut-link-expand'): # ищу те блоки, в которых текст частично скрыт через ljcut
        a = link.get('href') # получаю ссылку на страницу с полным текстом этого поста
        b = requests.get(a)
        c = BeautifulSoup(b.text, 'lxml')
        d = c.find('div', class_='asset-body')
        text = d.get_text() # граблю текст с найденной страницы
     else:
        text = i.get_text() # граблю текст, елси на странице нет ссылок ljcut
     tokens = nltk.word_tokenize(text)
     nodigit = [w for w in tokens if re.search('[А-Я, а-я, \.]', w)]
     nohtml = [i.replace("http", "") for i in nodigit]
     feed = " ".join(nohtml)
     texts.append(feed)
 with open('feed_sample', 'w') as fs:
     print(texts, file=fs)
В результате получаю текст, склееный из четырёх экземпляров текстов, полученных в строке 20, т.е. они дублируются. А мне нужны сложенные вместе - но по одному экземпляру - тексты из строки 20 и из строки 22.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
17.11.2017, 15:55
Ответы с готовыми решениями:

Парсинг на bs4
есть вот такой код import requests from bs4 import BeautifulSoup as bs url = 'https://1xstavka.ru/live/' page = requests.get(url) ...

Парсинг сайта с bs4
Добрый день! Хочу распарсить и пройтись по всем названиям товаров на странице, однако, метод find_all() стабильно находит лишь 4 товара на...

Парсинг сайта с bs4
Доброго времени суток! Помогите разобраться, пожалуйста, если не трудно) Я хочу отправить запрос гуглу с навзанием города и узнать его...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
17.11.2017, 15:55
Помогаю со студенческими работами здесь

Парсинг сайта с bs4
Здравствуйте! Пытаюсь спарсить один сайт, но выводит постоянно это: (Скриншот) В чем может быть проблема?

Парсинг ::before with BS4 (псевдо-класс)
Я пытался запарсить данные таблицы на это сайте. Но у меня не вышло запарсить псевдо класс ::before url =...

Парсинг olx.ua Python+requests+bs4
Пытаясь сделать парсер мобильных телефонов на сайте olx.ua столкнулся с проблемой:при отправке ajax запроса мне выдает вместо корректного...

Как достать ссылку из поисковой системы Яндекс? (Парсинг, python, bs4)
Возникла проблема при парсинге поисковой системы Яндекса. Необходимо сравнить ссылку, которую вводит пользователь и который есть на...

Парсинг на Python. BeautifulSoup, bs4, requests
Добрый день. Нужна помощь от людей, кто работал с BeautifulSoup на Python. Пытаюсь получить со страницы проверки QR кода на ГосУслугах дату...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
Оптимизация кода на разграничение прав доступа к элементам формы
Maks 13.04.2026
Алгоритм из решения ниже реализован на нетиповом документе, разработанного в конфигурации КА2. Задачи, как таковой, поставлено не было, проделанное ниже исключительно моя инициатива. Было так:. . .
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru