Си-решеточник
140 / 134 / 60
Регистрация: 07.02.2011
Сообщений: 669
|
|
1 | |
Парсинг сайта с авторизацией30.08.2014, 11:54. Показов 3129. Ответов 12
Метки нет (Все метки)
Всем доброго времени суток.
Необходимо пропарсить несколько страниц сайт, при этом заранее авторизировавшись. Для парсинга использую HTML Agility Pack, но так и не разобрался как через него перед парсингом предварительно авторизироваться на сайте. Авторизация проходит посредством POST запроса, в котором отсылаются 3 переменных (логин, пароль и флаг авторизации). Есть подобная возможность в HTML Agility Pack? P.S. Парсить вручную как-то совсем не хочется.
0
|
30.08.2014, 11:54 | |
Ответы с готовыми решениями:
12
Парсинг сайта с авторизацией Парсинг с авторизацией Парсинг с авторизацией в Python. Парсинг форума с авторизацией |
40 / 40 / 13
Регистрация: 09.07.2014
Сообщений: 116
|
|
30.08.2014, 13:49 | 2 |
А чем плох POST из стандартного HttpWebRequest?
0
|
Си-решеточник
140 / 134 / 60
Регистрация: 07.02.2011
Сообщений: 669
|
|
30.08.2014, 13:58 [ТС] | 3 |
Ничем, я через него и авторизировался, но в HTML Agility Pack то авторизация не проводится (разные сессии же). Если можно бы было впихнуть cookie из HttpWebResponse в HTML Agility Pack - было бы просто замечательно.
0
|
40 / 40 / 13
Регистрация: 09.07.2014
Сообщений: 116
|
|
30.08.2014, 14:03 | 4 |
Я думаю нет ничего невозможного, если оба класса используют один и тот же контейнер. Но стоит ли оно того, что бы парсить несколько страниц с помощью неизвестной библиотеки из-за которой не получается довести дело до конца. Я просто никогда не понимала людей которые так делают. Попросите помочь вам "вручную" пропарсиь эти страницы, это не сложно на самом деле.
0
|
Си-решеточник
140 / 134 / 60
Регистрация: 07.02.2011
Сообщений: 669
|
|
30.08.2014, 14:10 [ТС] | 5 |
Смотрю, любите изобретать свои велосипеды?) Это всё, конечно, замечательно: код будет самописный, известно как все работает, но займет больше времени, да и код уже написан для HTMLAgPack.
Эта библиотека - одна с самых известных для парсинга HTML в принципе, так что насчет "неизвестной библиотеки" вы погорячились Уверен, что здесь хватает людей, которые уже изучили её вдоль и поперек
0
|
1274 / 975 / 113
Регистрация: 12.01.2010
Сообщений: 1,971
|
|
30.08.2014, 14:15 | 6 |
как вообще связаны авторизация и htmlagilitypack?
библиотека не умеет качать страницы из инета, нет такого функционала
0
|
40 / 40 / 13
Регистрация: 09.07.2014
Сообщений: 116
|
|
30.08.2014, 14:15 | 7 |
Ну я бы не назвала парсинг исходной html с помощью тех же регулярок - велосипедом. Всегда так делаю и пока все получалось.
Получить исходную страницу это дело нескольких строк, а потом уже смотреть на это как на обычный текстовый файл из которого можно достать, что нужно с помощью своих алгоритмов, которые так же будут занимать не очень много места в коде. Может и погорячилась, но на счет "займет больше времени" я тоже не соглашусь.
0
|
1274 / 975 / 113
Регистрация: 12.01.2010
Сообщений: 1,971
|
|
30.08.2014, 14:16 | 8 |
скачка страницы - это одно
парсинг скаченной страницы - совершенной другое, никак не связанное со скачкой
0
|
Си-решеточник
140 / 134 / 60
Регистрация: 07.02.2011
Сообщений: 669
|
||||||
30.08.2014, 14:20 [ТС] | 9 | |||||
Эм... Да ладно?
0
|
40 / 40 / 13
Регистрация: 09.07.2014
Сообщений: 116
|
|
30.08.2014, 14:21 | 10 |
Я это сразу поняла, потому и предложила Вам попросить, помочь это сделать вручную в этой же теме Не думаю, что мой метод будет намного хуже других.
0
|
Си-решеточник
140 / 134 / 60
Регистрация: 07.02.2011
Сообщений: 669
|
|
30.08.2014, 14:24 [ТС] | 11 |
Добавлено через 3 минуты
Думаю, нужно самому попытаться разобраться в регулярках, а то, бывает, надо, а я валенок. Не каждый же раз просить помочь Но если вдруг кто всё таки знает способ пропарсить авторизированную страницу через HTML Agility Pack - прошу помощи!
1
|
Си-решеточник
140 / 134 / 60
Регистрация: 07.02.2011
Сообщений: 669
|
|
30.08.2014, 14:46 [ТС] | 13 |
Добавлено через 12 минут
И тут меня осенило... m0nax, спасибо! Я не знал, что в HTML Agility Pack можно пихать прямо исходный код страницы и парсить. Проблема решена!
0
|
30.08.2014, 14:46 | |
30.08.2014, 14:46 | |
Помогаю со студенческими работами здесь
13
Парсинг web-страницы с авторизацией Парсинг данных получаемых от сервиса с авторизацией скачать страницы сайта с авторизацией Парсинг данных с сайта или страницы сайта Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |