Форум программистов, компьютерный форум, киберфорум
Python: IDE, инструментарий
Войти
Регистрация
Восстановить пароль
 
0 / 0 / 0
Регистрация: 28.06.2020
Сообщений: 14
1

Почему bs4 неверно парсит страницу?

01.07.2020, 14:08. Просмотров 98. Ответов 1

Доброго времени суток, пытаюсь спарсить аватарку вконтакте, в качестве примера взяла Павла Дурова, часть кода следующая:

import bs4
import requests

def getting_avatar(id):
request = requests.get("https://vk.com/id" + id)
b = bs4.BeautifulSoup(request.text, "html.parser")
print(b)

getting_avatar(1)

Проблема состоит в том, что страница по адресу Павел Дуров | ВКонтакте содержит около 2500 строк, среди которых как раз-таки нужный тег <a> с требуемым id = profile_photo_link, а результат парсинга этой страницы содержит строк 100 от силы
Не понимаю, почему страница парсится не полностью
Очень прошу помочь!
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
01.07.2020, 14:08
Ответы с готовыми решениями:

Requests парсит не ту страницу
Добрый день. Подскажите пожалуййста, в чем может быть ошибка при парсинге сайта. Использую...

BeautifulSoup не парсит страницу до конца
Писал парсер до какого-то времени он работал нормально, а потом видимо в страницу разработчики...

Почему не парсит конкретный сайт?
Учусь. Для практики сделал анализатор тайтлов. открывается файл, запускается функция, которая...

Почему не парсит XPath в яндексе?
почему-то не парсятся заголовки в результатах поиска яндекса. Может из-за вложенных тегов b? ...

1
3268 / 2499 / 874
Регистрация: 28.10.2013
Сообщений: 6,573
01.07.2020, 16:46 2
Цитата Сообщение от Алёна_ Посмотреть сообщение
Не понимаю, почему страница парсится не полностью
Потому что страница динамическая. Новый контент подгружается по мере прокрутки.
Цитата Сообщение от Алёна_ Посмотреть сообщение
Очень прошу помочь!
Совет 1: вам нужно изучить матчасть, прежде чем заниматься парсингом.
Совет 2: изучите API VK - наверняка там уже все есть и ничего парсить не нужно.

Добавлено через 40 секунд
Цитата Сообщение от Алёна_ Посмотреть сообщение
Почему bs4 неверно парсит страницу?
Ответ на ваш вопрос: страница парсится правильно.

P.S. Вы не тот раздел поместили свою тему. Совет 3: прежде чем постить, изучите правила форума.
0
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
01.07.2020, 16:46

Заказываю контрольные, курсовые, дипломные и любые другие студенческие работы здесь.

HtmlAgilityPack неверно парсит значение
Всем привет, нужна ваша помощь. На странице есть несколько &lt;li&gt; с классом file-list-fileitem....

PhpQuery парсит страницу в другой кодировке
Здравствуйте, при парсинге столкнулся с проблемой. Некоторые сайты парсятся в какой-то непонятной...

Не понимаю почему не парсит
Не как не могу спарсить конкретный сайт, почему? помогите плиз $ch = curl_init(); ...

Почему CURL не парсит ASCII ?
Добрый день, подскажите, пожалуйста, почему curl не хочет парсить код HTML страницы с кодировкой...

Не парсит jQuery.parseJSON, не пойму почему
Здравствуйте, у меня учебная задача подгружать при прокрутке контент, типа стены в контакте. Не...

WebBrowser (WinForm or WPF) неверно обрабатывает страницу
Всем привет. У меня на сайте есть страница авторизации. Также на сайте имеется авторизация через...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2020, vBulletin Solutions, Inc.