Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.78/18: Рейтинг темы: голосов - 18, средняя оценка - 4.78
4 / 4 / 1
Регистрация: 20.09.2012
Сообщений: 74

Парсинг содержимого сайта с протоколом https

29.08.2017, 14:47. Показов 3528. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет.

Пытаюсь распарсить содержимое сайта (например, объявлений) с протоколом https.

Приложение написал, все парсится, но через некоторое количество запросов сервер перенаправляет программу на страницу с капчей. Обойти ее не получается.

Решил использовать proxy (брал отсюда https://hidemy.name/ru/proxy-l... non=4#list).

Подключение к серверу работает через HttpWebRequest:

C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
        public string getPageContentRequest(string url)
        {
            string htmlSource = string.Empty;
            try
            {
                var httpWebRequest = (HttpWebRequest)WebRequest.Create(url);
                httpWebRequest.AllowAutoRedirect = false;
                httpWebRequest.Method = "GET";
                httpWebRequest.Proxy = new WebProxy("51.15.49.7:3128");
                using (var httpWebResponse = (HttpWebResponse)httpWebRequest.GetResponse())
                {
                    using (var stream = httpWebResponse.GetResponseStream())
                    {
                        using (var reader = new StreamReader(stream, Encoding.GetEncoding(httpWebResponse.CharacterSet)))
                        {
                            htmlSource = reader.ReadToEnd();
                        }
                    }
                }
            }
            catch (Exception e)
            {
                Console.WriteLine("Cannot get html source");
            }
            return htmlSource;
        }
Вроде тоже все заработало, но ненадолго - с сервера стала приходить ошибка 403 - Forbidden. Насколько я понял, сервер заблокировал получение содержимого страницы.

Подскажите, что нужно сделать, чтобы обойти защиту сервера?
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
29.08.2017, 14:47
Ответы с готовыми решениями:

HtmlAgilityPack как парсить сайт с протоколом https если без "правильных" cookie сервер отдает не всю страницу
Хотел вытаскивать определенную информацию с одного из сайтов mail при помощи HtmlAgilityPack но возникло несколько проблем. При запросе к...

Парсинг содержимого iframe
Здравствуйте! Решение ищу уже довольно долго. На этом форуме есть похожие темы, но они немного не подходят. Задача: Программа c#...

Парсинг содержимого сайта
Народ как запарсить текст в дельфи function Pars (T_, ForS, _T : string): string; var a, b : integer; begin Result :=...

3
Неадекват
 Аватар для freeba
1501 / 1237 / 248
Регистрация: 02.04.2010
Сообщений: 2,807
29.08.2017, 14:51
Лучший ответ Сообщение было отмечено AlikSoldier как решение

Решение

Цитата Сообщение от AlikSoldier Посмотреть сообщение
Подскажите, что нужно сделать, чтобы обойти защиту сервера?
Решить капчу, сменить прокси, залить эксплойт с теневым апи, вариантов море. Но на форуме их обсуждение запрещено, ввиду не совсем законности.
1
4 / 4 / 1
Регистрация: 20.09.2012
Сообщений: 74
29.08.2017, 15:06  [ТС]
Понял, спасибо большое

Добавлено через 11 минут
А в продолжении темы - можно какими-либо законными средствами выдергивать данные с сайта в обход бана?
0
Неадекват
 Аватар для freeba
1501 / 1237 / 248
Регистрация: 02.04.2010
Сообщений: 2,807
29.08.2017, 16:43
Конечно, через апи сайта (если оно имеется в наличии), либо по договоренности с владельцем, чтобы он снял ограничения с вашего IP.

Все остальное может быть классифицировано по ст. 272 УК РФ. В противном случае, никаких защит на сайт не навешивали бы.

PS: Хотя у нас эту статью даже за жесткий дудос еще не применяли, но все бывает в первый раз
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
29.08.2017, 16:43
Помогаю со студенческими работами здесь

Не могу зайти на сайты с https протоколом
Превратно не поймите если не суда за помощью обращаюсь. Всем времени суток добрых. Прошу помочь советом. Дня уже как 4 не могу...

Грузит только сайты с протоколом HTTPS
Всем привет!! У меня такая проблема: Вчера ни с чего перестал работать браузер, т.е. в аське и скайпе сижу норм, но через любой браузер...

Правила перехода на файл robots.txt с http и https протоколом
Всем хорошего дня. Такая ситуация. Был сайт, который работал по протоколу http (80 порт). Этот сайт послужил донором для нового сайта....

Открываю многие сайты с протоколом https при нажатии на значок замка вижу надпись: защищено ESET, spol s r.o
Обращался в службу поддержки ESET, но, там лишь ответили, что ESET NOD не производит сертификаты SSL https. Так тогда - КТО делает такие...

Парсинг страницы https
Ребята помогите, есть проблема. Написал я код на парсинг html сайта https: <?php ini_set('max_execution_time', 600); function...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru