Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.73/15: Рейтинг темы: голосов - 15, средняя оценка - 4.73
Си-решеточник
140 / 134 / 60
Регистрация: 07.02.2011
Сообщений: 669
1

Парсинг сайта с авторизацией

30.08.2014, 11:54. Показов 3129. Ответов 12
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Всем доброго времени суток.

Необходимо пропарсить несколько страниц сайт, при этом заранее авторизировавшись. Для парсинга использую HTML Agility Pack, но так и не разобрался как через него перед парсингом предварительно авторизироваться на сайте. Авторизация проходит посредством POST запроса, в котором отсылаются 3 переменных (логин, пароль и флаг авторизации).

Есть подобная возможность в HTML Agility Pack?

P.S. Парсить вручную как-то совсем не хочется.
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
30.08.2014, 11:54
Ответы с готовыми решениями:

Парсинг сайта с авторизацией
Вот что получилось сделать по авторизации: public void ASendPost() { var...

Парсинг с авторизацией
мне нужно собирать информацию со своего аккаунта на определенном сайте, делаю так $url="some...

Парсинг с авторизацией в Python.
Я уже научился парсить веб-страницы с помощью Python очень неплохо получается. Вопрос такого плана...

Парсинг форума с авторизацией
Ребята, хочу пропарсить форум на движке ucoz (http://vip-tv.org.ua/forum). Нужная мне инфа доступна...

12
40 / 40 / 13
Регистрация: 09.07.2014
Сообщений: 116
30.08.2014, 13:49 2
А чем плох POST из стандартного HttpWebRequest?
0
Си-решеточник
140 / 134 / 60
Регистрация: 07.02.2011
Сообщений: 669
30.08.2014, 13:58  [ТС] 3
Цитата Сообщение от Tirenta Посмотреть сообщение
А чем плох POST из стандартного HttpWebRequest?
Ничем, я через него и авторизировался, но в HTML Agility Pack то авторизация не проводится (разные сессии же). Если можно бы было впихнуть cookie из HttpWebResponse в HTML Agility Pack - было бы просто замечательно.
0
40 / 40 / 13
Регистрация: 09.07.2014
Сообщений: 116
30.08.2014, 14:03 4
Я думаю нет ничего невозможного, если оба класса используют один и тот же контейнер. Но стоит ли оно того, что бы парсить несколько страниц с помощью неизвестной библиотеки из-за которой не получается довести дело до конца. Я просто никогда не понимала людей которые так делают. Попросите помочь вам "вручную" пропарсиь эти страницы, это не сложно на самом деле.
0
Си-решеточник
140 / 134 / 60
Регистрация: 07.02.2011
Сообщений: 669
30.08.2014, 14:10  [ТС] 5
Цитата Сообщение от Tirenta Посмотреть сообщение
Я просто никогда не понимала людей которые так делают.
Смотрю, любите изобретать свои велосипеды?) Это всё, конечно, замечательно: код будет самописный, известно как все работает, но займет больше времени, да и код уже написан для HTMLAgPack.
Эта библиотека - одна с самых известных для парсинга HTML в принципе, так что насчет "неизвестной библиотеки" вы погорячились Уверен, что здесь хватает людей, которые уже изучили её вдоль и поперек
0
1274 / 975 / 113
Регистрация: 12.01.2010
Сообщений: 1,971
30.08.2014, 14:15 6
как вообще связаны авторизация и htmlagilitypack?
библиотека не умеет качать страницы из инета, нет такого функционала
0
40 / 40 / 13
Регистрация: 09.07.2014
Сообщений: 116
30.08.2014, 14:15 7
Ну я бы не назвала парсинг исходной html с помощью тех же регулярок - велосипедом. Всегда так делаю и пока все получалось.
Получить исходную страницу это дело нескольких строк, а потом уже смотреть на это как на обычный текстовый файл из которого можно достать, что нужно с помощью своих алгоритмов, которые так же будут занимать не очень много места в коде. Может и погорячилась, но на счет "займет больше времени" я тоже не соглашусь.
0
1274 / 975 / 113
Регистрация: 12.01.2010
Сообщений: 1,971
30.08.2014, 14:16 8
скачка страницы - это одно
парсинг скаченной страницы - совершенной другое, никак не связанное со скачкой
0
Си-решеточник
140 / 134 / 60
Регистрация: 07.02.2011
Сообщений: 669
30.08.2014, 14:20  [ТС] 9
Цитата Сообщение от m0nax Посмотреть сообщение
библиотека не умеет качать страницы из инета
Эм... Да ладно?
C#
1
HtmlDocument html = new HtmlWeb().Load("http://www.google.com/");
Цитата Сообщение от Tirenta Посмотреть сообщение
с помощью тех же регулярок
Умел бы я ими пользоваться...
0
40 / 40 / 13
Регистрация: 09.07.2014
Сообщений: 116
30.08.2014, 14:21 10
Цитата Сообщение от Rameron Посмотреть сообщение
Умел бы я ими пользоваться...
Я это сразу поняла, потому и предложила Вам попросить, помочь это сделать вручную в этой же теме Не думаю, что мой метод будет намного хуже других.
0
Си-решеточник
140 / 134 / 60
Регистрация: 07.02.2011
Сообщений: 669
30.08.2014, 14:24  [ТС] 11
Добавлено через 3 минуты
Цитата Сообщение от Tirenta Посмотреть сообщение
Я это сразу поняла, потому и предложила Вам попросить, помочь это сделать вручную в этой же теме
Думаю, нужно самому попытаться разобраться в регулярках, а то, бывает, надо, а я валенок. Не каждый же раз просить помочь

Но если вдруг кто всё таки знает способ пропарсить авторизированную страницу через HTML Agility Pack - прошу помощи!
1
Заблокирован
30.08.2014, 14:29 12
Rameron, прочел сообщения, но так и не понял в чем проблема:
В использовании HTML Agility Pack?
В авторизации на сайте с помощью и считывания кода страницы?
0
Си-решеточник
140 / 134 / 60
Регистрация: 07.02.2011
Сообщений: 669
30.08.2014, 14:46  [ТС] 13
Добавлено через 12 минут
И тут меня осенило...
m0nax, спасибо! Я не знал, что в HTML Agility Pack можно пихать прямо исходный код страницы и парсить. Проблема решена!
0
30.08.2014, 14:46
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
30.08.2014, 14:46
Помогаю со студенческими работами здесь

Парсинг web-страницы с авторизацией
Добрый день! В общем столкнулся со следующей проблемой: хочу мониторить пару сайтов с...

Парсинг данных получаемых от сервиса с авторизацией
проблема в делегировании. Задача:послать запрос сервису,с логином и паролем,получить строку-токен...

скачать страницы сайта с авторизацией
Вот в чем суть. Необходимо сохранить большое количество страниц сайта на комп (не все). Ссылки на...

Парсинг данных с сайта или страницы сайта
Здравствуйте, добрые люди! Есть задача спарсить данные с страницы соц сети. Или просто со...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
13
Ответ Создать тему
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru