Форум программистов, компьютерный форум, киберфорум
C#: ASP.NET MVC
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/7: Рейтинг темы: голосов - 7, средняя оценка - 5.00
0 / 0 / 0
Регистрация: 23.04.2013
Сообщений: 4

Распарсить динамически заполняемую страницу VK

23.04.2013, 22:46. Показов 1512. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Доброго времени суток.
Итак, есть задача: собрать ссылки на найденных людей вконтакте (пол, возраст, годы рождения, регион, страна). Все было бы здороово, если бы не динамическая подгрузка содержимого, из-за чего на страницу попадают только 41 контакт, а их тысячи!!! Как увидеть то, что динамически подгружается?

Сейчас делаю так:
C#
1
2
3
4
5
6
 IEnumerable<String> friendUrlCollection = webBrowser1.Document.GetElementById("search_table")
.GetElementsByTagName("a")
.Cast<HtmlElement>()
.Where(he => he.InnerText != null)
.Select(he => he.GetAttribute("href"))
.ToList();
Повторюсь, не работает, тянет только то, что загрузилось при первом обращении.
Что посоветуете? Что почитать?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
23.04.2013, 22:46
Ответы с готовыми решениями:

Распарсить страницу
Добрый день, не могу распарсить элементарную страницу. На странице имеется вот такой кусок кода, мне нужно вытащить 1 871 130,00. ...

Распарсить страницу сайта
Всем привет. Главная страница сайта имеет расширение aspx. При этом если переходить по другим страницам, то расширение страницы...

распарсить html страницу
Добрый день. Есть интерфейс в админке, написан на реакте вроде. Доступа к редактированию нет. Это что-то типа мессенджера- нужно брать...

6
 Аватар для alechka
75 / 50 / 14
Регистрация: 28.03.2013
Сообщений: 175
23.04.2013, 23:09
почитай API, хотя возможно как раз этого там и не будет

а если серьезно - то поищи каким скриптом с контакта динамически тянутся оставшиеся записи и повтори его действия. Список там почти однозначно отдается как json, так что его даже парсить особо не нужно будет.
0
0 / 0 / 0
Регистрация: 23.04.2013
Сообщений: 4
23.04.2013, 23:32  [ТС]
Цитата Сообщение от alechka Посмотреть сообщение
почитай API, хотя возможно как раз этого там и не будет

а если серьезно - то поищи каким скриптом с контакта динамически тянутся оставшиеся записи и повтори его действия. Список там почти однозначно отдается как json, так что его даже парсить особо не нужно будет.
Это еще пол проблемы. Там еще и форма капчи таким же макаром подтягивается. Ее тоже надо умудриться увидеть на WebBrowser-компоненте. А приложение WinForm-овское.

Так, что посоветуете почитать или как бы вы попробовали такое запилить? в АПИ этого нет =)
0
 Аватар для alechka
75 / 50 / 14
Регистрация: 28.03.2013
Сообщений: 175
23.04.2013, 23:56
тянул бы не через WebBrowser, а напрямую через HttpWebRequest (да, помучавшись с подстановкой нужных кукиз). Потом в firebug поглядел бы, что передается на сервер при поиске подгружающейся страницы и попытался сэмулировать то же самое.
0
0 / 0 / 0
Регистрация: 23.04.2013
Сообщений: 4
24.04.2013, 07:37  [ТС]
Цитата Сообщение от alechka Посмотреть сообщение
тянул бы не через WebBrowser, а напрямую через HttpWebRequest (да, помучавшись с подстановкой нужных кукиз). Потом в firebug поглядел бы, что передается на сервер при поиске подгружающейся страницы и попытался сэмулировать то же самое.
Хороший совет! Спасибо. Ночью во сне то же посоветовали. Вы же убедили меня в его правильности. Уже ковыряю свой старый исходник парсера.
0
9 / 9 / 8
Регистрация: 22.04.2013
Сообщений: 52
02.05.2013, 03:12
думаю можно попробовать web.driver'ом (это для автоматизированного тестирования) там есть явное и неявное ожидание.
если уже совсем никак
0
0 / 0 / 0
Регистрация: 23.04.2013
Сообщений: 4
07.05.2013, 21:51  [ТС]
Цитата Сообщение от Barii Посмотреть сообщение
думаю можно попробовать web.driver'ом (это для автоматизированного тестирования) там есть явное и неявное ожидание.
если уже совсем никак
Что за web.driver??? Поподробнее расскажите, если не трудно. А то совсем труба
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
07.05.2013, 21:51
Помогаю со студенческими работами здесь

Как распарсить страницу?
Помогите пропарсить http://dila.ua/pricelist/. Нужно вытащить название-цена, срок выполнения анализа.... пробовал через html agility...

Распарсить Html-страницу
&lt;tr&gt;&lt;th&gt;Адрес&lt;/th&gt;&lt;td&gt; Санкт-Петербург, ул. Мира, д. 3, оф 230 &lt;br&gt;cv bcvbcvb sdfgbsdf Мне надо достать Санкт-Петербург, ул....

Не удается распарсить страницу
Добрый день. Ситуация простая, пытаюсь кликнуть ссылку. Код страницы &lt;!-- continue to site--&gt; &lt;tr&gt; &lt;td...

Распарсить HTML-страницу
например я Напишу страницу в техбох1 а при нажатие на кнопки спарсить он должен загрузить себе весь код страницы а потом выбрать все...

Распарсить HTML-страницу
Ребята, помогите пожалуйста, не разобрался) Вот такой код Dim request As System.Net.HttpWebRequest =...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru