Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.83/18: Рейтинг темы: голосов - 18, средняя оценка - 4.83
Си-решеточник
 Аватар для Rameron
141 / 135 / 60
Регистрация: 07.02.2011
Сообщений: 669

Парсинг сайта с авторизацией

30.08.2014, 11:54. Показов 3420. Ответов 12
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем доброго времени суток.

Необходимо пропарсить несколько страниц сайт, при этом заранее авторизировавшись. Для парсинга использую HTML Agility Pack, но так и не разобрался как через него перед парсингом предварительно авторизироваться на сайте. Авторизация проходит посредством POST запроса, в котором отсылаются 3 переменных (логин, пароль и флаг авторизации).

Есть подобная возможность в HTML Agility Pack?

P.S. Парсить вручную как-то совсем не хочется.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
30.08.2014, 11:54
Ответы с готовыми решениями:

Парсинг сайта с авторизацией
Вот что получилось сделать по авторизации: public void ASendPost() { var postData = ""; ...

Парсинг с авторизацией
мне нужно собирать информацию со своего аккаунта на определенном сайте, делаю так $url="some site..."; $ch=curl_init(); ...

Парсинг с авторизацией в Python.
Я уже научился парсить веб-страницы с помощью Python очень неплохо получается. Вопрос такого плана на многих сайтах для доступа к нужной...

12
40 / 40 / 13
Регистрация: 09.07.2014
Сообщений: 116
30.08.2014, 13:49
А чем плох POST из стандартного HttpWebRequest?
0
Си-решеточник
 Аватар для Rameron
141 / 135 / 60
Регистрация: 07.02.2011
Сообщений: 669
30.08.2014, 13:58  [ТС]
Цитата Сообщение от Tirenta Посмотреть сообщение
А чем плох POST из стандартного HttpWebRequest?
Ничем, я через него и авторизировался, но в HTML Agility Pack то авторизация не проводится (разные сессии же). Если можно бы было впихнуть cookie из HttpWebResponse в HTML Agility Pack - было бы просто замечательно.
0
40 / 40 / 13
Регистрация: 09.07.2014
Сообщений: 116
30.08.2014, 14:03
Я думаю нет ничего невозможного, если оба класса используют один и тот же контейнер. Но стоит ли оно того, что бы парсить несколько страниц с помощью неизвестной библиотеки из-за которой не получается довести дело до конца. Я просто никогда не понимала людей которые так делают. Попросите помочь вам "вручную" пропарсиь эти страницы, это не сложно на самом деле.
0
Си-решеточник
 Аватар для Rameron
141 / 135 / 60
Регистрация: 07.02.2011
Сообщений: 669
30.08.2014, 14:10  [ТС]
Цитата Сообщение от Tirenta Посмотреть сообщение
Я просто никогда не понимала людей которые так делают.
Смотрю, любите изобретать свои велосипеды?) Это всё, конечно, замечательно: код будет самописный, известно как все работает, но займет больше времени, да и код уже написан для HTMLAgPack.
Эта библиотека - одна с самых известных для парсинга HTML в принципе, так что насчет "неизвестной библиотеки" вы погорячились Уверен, что здесь хватает людей, которые уже изучили её вдоль и поперек
0
 Аватар для m0nax
1274 / 975 / 113
Регистрация: 12.01.2010
Сообщений: 1,971
30.08.2014, 14:15
как вообще связаны авторизация и htmlagilitypack?
библиотека не умеет качать страницы из инета, нет такого функционала
0
40 / 40 / 13
Регистрация: 09.07.2014
Сообщений: 116
30.08.2014, 14:15
Ну я бы не назвала парсинг исходной html с помощью тех же регулярок - велосипедом. Всегда так делаю и пока все получалось.
Получить исходную страницу это дело нескольких строк, а потом уже смотреть на это как на обычный текстовый файл из которого можно достать, что нужно с помощью своих алгоритмов, которые так же будут занимать не очень много места в коде. Может и погорячилась, но на счет "займет больше времени" я тоже не соглашусь.
0
 Аватар для m0nax
1274 / 975 / 113
Регистрация: 12.01.2010
Сообщений: 1,971
30.08.2014, 14:16
скачка страницы - это одно
парсинг скаченной страницы - совершенной другое, никак не связанное со скачкой
0
Си-решеточник
 Аватар для Rameron
141 / 135 / 60
Регистрация: 07.02.2011
Сообщений: 669
30.08.2014, 14:20  [ТС]
Цитата Сообщение от m0nax Посмотреть сообщение
библиотека не умеет качать страницы из инета
Эм... Да ладно?
C#
1
HtmlDocument html = new HtmlWeb().Load("http://www.google.com/");
Цитата Сообщение от Tirenta Посмотреть сообщение
с помощью тех же регулярок
Умел бы я ими пользоваться...
0
40 / 40 / 13
Регистрация: 09.07.2014
Сообщений: 116
30.08.2014, 14:21
Цитата Сообщение от Rameron Посмотреть сообщение
Умел бы я ими пользоваться...
Я это сразу поняла, потому и предложила Вам попросить, помочь это сделать вручную в этой же теме Не думаю, что мой метод будет намного хуже других.
0
Си-решеточник
 Аватар для Rameron
141 / 135 / 60
Регистрация: 07.02.2011
Сообщений: 669
30.08.2014, 14:24  [ТС]
Добавлено через 3 минуты
Цитата Сообщение от Tirenta Посмотреть сообщение
Я это сразу поняла, потому и предложила Вам попросить, помочь это сделать вручную в этой же теме
Думаю, нужно самому попытаться разобраться в регулярках, а то, бывает, надо, а я валенок. Не каждый же раз просить помочь

Но если вдруг кто всё таки знает способ пропарсить авторизированную страницу через HTML Agility Pack - прошу помощи!
1
Заблокирован
30.08.2014, 14:29
Rameron, прочел сообщения, но так и не понял в чем проблема:
В использовании HTML Agility Pack?
В авторизации на сайте с помощью и считывания кода страницы?
0
Си-решеточник
 Аватар для Rameron
141 / 135 / 60
Регистрация: 07.02.2011
Сообщений: 669
30.08.2014, 14:46  [ТС]
Добавлено через 12 минут
И тут меня осенило...
m0nax, спасибо! Я не знал, что в HTML Agility Pack можно пихать прямо исходный код страницы и парсить. Проблема решена!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
30.08.2014, 14:46
Помогаю со студенческими работами здесь

Парсинг форума с авторизацией
Ребята, хочу пропарсить форум на движке ucoz (http://vip-tv.org.ua/forum). Нужная мне инфа доступна только после авторизации. Как решается...

Парсинг web-страницы с авторизацией
Добрый день! В общем столкнулся со следующей проблемой: хочу мониторить пару сайтов с халтурой... Все бы просто, качаю страничку, ее...

Парсинг данных получаемых от сервиса с авторизацией
проблема в делегировании. Задача:послать запрос сервису,с логином и паролем,получить строку-токен (SessionId),которую в дальнейшем...

Скачать страницы сайта с авторизацией
Вот в чем суть. Необходимо сохранить большое количество страниц сайта на комп (не все). Ссылки на страницы есть. Просто так вбить их в...

Парсинг данных с сайта или страницы сайта
Здравствуйте, добрые люди! Есть задача спарсить данные с страницы соц сети. Или просто со страницы с помощью js. На пхп не предлагать....


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
13
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru