Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.58/19: Рейтинг темы: голосов - 19, средняя оценка - 4.58
 Аватар для 77Bender77
18 / 18 / 2
Регистрация: 16.12.2010
Сообщений: 145

Защита сайта от парсинга

13.02.2012, 23:08. Показов 4035. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
доброго времени суток! хочу пропарсить сайт кинопоиск, но он перенаправляет меня на отдельную страницу со следующим сообщением:

Если вы видите эту страницу, значит с вашего IP-адреса поступило необычно много запросов.
Система защиты от роботов (СЗоР) решила, что вместо вас действует программа, и ограничила доступ.


как это можно обойти?
вот код:

C#
1
2
3
4
5
6
7
8
9
10
11
string url = "http://www.kinopoisk.ru/level/1/film/87672";
string html = string.Empty;
string pattern = "<meta name=\"mrc__share_title\" content=\"(.*)\" />";
 
HttpWebRequest myRequest = (HttpWebRequest)HttpWebRequest.Create(url);
HttpWebResponse myResponse = (HttpWebResponse)myRequest.GetResponse();
StreamReader sr = new StreamReader(myResponse.GetResponseStream(), Encoding.GetEncoding(1251));
html = sr.ReadToEnd();
 
Match res = Regex.Match(html, pattern);
label1.Text = res.Groups[1].ToString();
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
13.02.2012, 23:08
Ответы с готовыми решениями:

Подскажите по методике парсинга сайта
Всем здравствуйте, вот осваиваю новую задачу, беру сайт и нужно спарсить информацию, использую для парсинга CsQuery, так как на...

Регулярка для парсинга прокси с сайта
Учусь писать регулярки, первое знакомство, решил спарсить с сайта прокси. Удивился результату 151.200.170.146:80 01:11:14 16:00 ...

Архитектура веб сайта и парсинга фотографий
Доброго времени суток! Помогите придумать архитектурное решение для веб сайта (ASP.NET MVC 4). В кратце, веб сайт отображает...

4
Эксперт Java
 Аватар для turbanoff
4094 / 3828 / 745
Регистрация: 18.05.2010
Сообщений: 9,331
Записей в блоге: 12
14.02.2012, 07:32
Выдается даже при однократном запуске?
Как обойти: установить интервал, обзавестись несколькими внешними IP, парсить кэш гугла
1
 Аватар для WizarД
53 / 56 / 10
Регистрация: 07.02.2011
Сообщений: 556
Записей в блоге: 1
14.02.2012, 16:44
600 запросов в 50 потоков(без куков),полёт нормальный.
1
 Аватар для 77Bender77
18 / 18 / 2
Регистрация: 16.12.2010
Сообщений: 145
14.02.2012, 21:52  [ТС]
turbanoff, да, при однократном запуске. интервала никакого нет, ИП - не вариант, а вот про кэш гугла интересно узнать)


WizarД, что значит без куков? обьясни, что делал
0
 Аватар для WizarД
53 / 56 / 10
Регистрация: 07.02.2011
Сообщений: 556
Записей в блоге: 1
14.02.2012, 22:10
без cookies.
Запустил чарлес(см. в инете) ловим пакет от кинопоиска.
В 50 потоков отправлялось 600 попыток загрузить кинопоиск все 600 успешны,всё грузил.
Укажите просто тип контента и прочее
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
14.02.2012, 22:10
Помогаю со студенческими работами здесь

Защита от парсинга сайта
Уважаемые форумчане. Такой вопрос. У меня парсят сайт, ежедневно и не один раз, а по мере наполнения контента. Первый вопрос, если я в...

Защита от парсинга
Всем привет. Необходимо отделять поисковых роботов. Посоветуйте, как лучше реализовать такую защиту.

Защита от парсинга
Господа, понимаю, что тема избитая и рецепта нет, но может есть решение для конкретно моего случая. Буду признателен за помощь. Сайт...

Защита номера телефона от парсинга
Всем доброго дня! Хочу спросить у тех, кто делал всевозможные парсеры контента: возможно спрятать номера телефонов на сайте (список...

Защита от парсинга: прокрутка страницы
Делаю защиту от парсинга. Предложили такую идею: расположить на странице Js, который чекает активность юзера на странице. Вопросы такие: ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
моя боль
iceja 24.01.2026
Выложила интерполяцию кубическими сплайнами www. iceja. net REST сервисы временно не работают, только через Web. Написала за 56 рабочих часов этот сайт с нуля. При помощи perplexity. ai PRO , при. . .
Модель сукцессии микоризы
anaschu 24.01.2026
Решили писать научную статью с неким РОманом
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь(не выше 3-го порядка) постоянного тока с элементами R, L, C, k(ключ), U, E, J. Программа находит переходные токи и напряжения на элементах схемы классическим методом(1 и 2 з-ны. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru