Форум программистов, компьютерный форум, киберфорум
Java
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.96/67: Рейтинг темы: голосов - 67, средняя оценка - 4.96
130 / 117 / 30
Регистрация: 14.11.2010
Сообщений: 707

Парсинг данных с сайтов

11.04.2013, 11:51. Показов 12741. Ответов 11
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Доброго времени суток!
Проблема в том, что некоторые сайты запрещают автоматически парсить свои страницы, например yandex выдает капчу, но это я решал с помощью сервиса antigate.com(правда скрипт на PHP писал), индусы разгадывали капчу, я делал повторно запрос и все ок, а есть например сайт whoishostingthis.com (с помощью него хочу узнать хостера сайта), он выдает просто страницу без капчи, а с текстом мол нельзя автоматом парсить...
Страницу я получаю с помощью библиотеки Jsoup:
Java
1
Document page = Jsoup.connect("http://whoishostingthis.com/cyberforum.ru/").get();
Как без использования прокси можно решать данные проблемы? Может есть на Java библиотеки эмулятора браузера?

Добавлено через 1 минуту
может быть многопоточно выполнять запросы к таким сайтам и сохранять и передавать куки?
только вот не знаю, где про это почитать, буду признателен за подсказку
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
11.04.2013, 11:51
Ответы с готовыми решениями:

Парсинг сайтов в Android Studio + выборка данных
Есть сайт http://coolerplus.ru/ с которого надо взять данные. Ниже приведён мой код, но он не работает. Вопрос: как исправить ситуацию или...

Парсинг сайтов
Подскажите пожалуйста как можно парсить сайты с помощью json, webclient и htmlagility. Прочитал множество статей, но там идет упор на XML.

парсинг сайтов
Здравствуйте форумчане, у меня вопрос,к примеру есть сайт wday.ru, мне нужно спарсить все новости во всех разделах ../moda-shopping/.. и...

11
Музыка нас Связала
 Аватар для Fonduee
232 / 232 / 52
Регистрация: 26.03.2008
Сообщений: 616
11.04.2013, 11:59
Цитата Сообщение от blackbanny Посмотреть сообщение
Может есть на Java библиотеки эмулятора браузера?
HttpClient от Apache
1
130 / 117 / 30
Регистрация: 14.11.2010
Сообщений: 707
11.04.2013, 12:04  [ТС]
Цитата Сообщение от Fonduee Посмотреть сообщение
HttpClient от Apache
пробовали парсить такие сайты с помощью нее?
0
Музыка нас Связала
 Аватар для Fonduee
232 / 232 / 52
Регистрация: 26.03.2008
Сообщений: 616
11.04.2013, 12:24
Нет, но бот для браузерной игры работает на ура.
0
130 / 117 / 30
Регистрация: 14.11.2010
Сообщений: 707
11.04.2013, 16:36  [ТС]
кто-нибудь знает, как без HttpClient парсить такие сайты?
0
349 / 120 / 1
Регистрация: 08.01.2013
Сообщений: 728
11.04.2013, 16:44
По идее (я плохо знаком с джавой), библиотека по-умолчанию при скачке скажет серверу неправильный агент. В других средствах (например, curl) есть настройки, которые позволяют задать юзер-агент, куки итд. Настраивайте их аналогично браузеру, тогда сервер не сможет опознать в вашем клиенте бота.
0
130 / 117 / 30
Регистрация: 14.11.2010
Сообщений: 707
11.04.2013, 16:46  [ТС]
Цитата Сообщение от tlittle Посмотреть сообщение
тогда сервер не сможет опознать в вашем клиенте бота
в этом я сомневаюсь, т.к. писал съем позиций с яндекса на php, как раз используя curl и задавая user-agent, но яндекс все равно выдавал капчу...
0
349 / 120 / 1
Регистрация: 08.01.2013
Сообщений: 728
11.04.2013, 17:27
Цитата Сообщение от blackbanny Посмотреть сообщение
в этом я сомневаюсь, т.к. писал съем позиций с яндекса на php, как раз используя curl и задавая user-agent, но яндекс все равно выдавал капчу...
Яндекс выдает капчу после превышения некоторого порога, к примеру, операций в единицу времени. Но он проверяет человечность, и это логично, ввели капчу - работайте дальше.

А те сервисы, насколько я понимаю, с первой же операции принимают вас за бота. Простейшая проверка - пустой юзер-агент = бот уже имеет смысл в целях недопущения автоматического копи-паста на мусорки. Или, все-таки, страница с запретом выскакивает после некоторого количества запросов? Тогда ее можно обойти только уменьшение частоты.
0
130 / 117 / 30
Регистрация: 14.11.2010
Сообщений: 707
11.04.2013, 17:47  [ТС]
Цитата Сообщение от tlittle Посмотреть сообщение
Или, все-таки, страница с запретом выскакивает после некоторого количества запросов?
выскакивает после первого запроса...

Добавлено через 10 минут
если с помощью HttpClient ставлю User-Agent, то все равно получаю запрет:
Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
HttpClient httpclient = new DefaultHttpClient();
        httpclient.getParams().setParameter(CoreProtocolPNames.USER_AGENT, "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.2.13) Gecko/20101206 Ubuntu/10.10 (maverick) Firefox/3.6.13");
        try {
            CookieStore cookieStore = new BasicCookieStore();
            
            HttpContext localContext = new BasicHttpContext();
            localContext.setAttribute(ClientContext.COOKIE_STORE, cookieStore);
 
            HttpGet httpget = new HttpGet("http://www.whoishostingthis.com/cyberforum.ru/");
            httpget.getParams().setParameter(CoreProtocolPNames.USER_AGENT, "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.2.13) Gecko/20101206 Ubuntu/10.10 (maverick) Firefox/3.6.13");
            
            System.out.println("executing request " + httpget.getURI());
 
            HttpResponse response = httpclient.execute(httpget, localContext);
            System.out.println(response.getStatusLine());
            System.out.println(EntityUtils.toString(response.getEntity()));
        } finally {
            httpclient.getConnectionManager().shutdown();
        }
0
349 / 120 / 1
Регистрация: 08.01.2013
Сообщений: 728
11.04.2013, 23:25
Цитата Сообщение от blackbanny Посмотреть сообщение
выскакивает после первого запроса...
С другого IP пробовал? Я телнетом получал страничку пару раз. А потом получил следующее:
"Lookup Limit Reached For Your IP Block" и запрос капчи. Возможно с твоего IP оно уже и капчу не спрашивает?

PS. Апплет запускается с какого-то хостинга? Может на этом сервисе по-умолчанию запрещены запросы с IP хостинговых серверов, находящихся в базе?
0
130 / 117 / 30
Регистрация: 14.11.2010
Сообщений: 707
12.04.2013, 11:02  [ТС]
Цитата Сообщение от tlittle Посмотреть сообщение
С другого IP пробовал?
не пробовал...
Цитата Сообщение от tlittle Посмотреть сообщение
Возможно с твоего IP оно уже и капчу не спрашивает?
сейчас посмотрел, капчу спрашивает
Цитата Сообщение от tlittle Посмотреть сообщение
Апплет запускается с какого-то хостинга?
у меня не апплет, а десктопное приложение...

видимо я куки не получаю и не отдаб с помощью HttpClient...
Fonduee, подскажи, как работать с куки c помощью HttpClient?
P.S. я 4 версию качал
0
349 / 120 / 1
Регистрация: 08.01.2013
Сообщений: 728
12.04.2013, 23:16
Цитата Сообщение от blackbanny Посмотреть сообщение
не пробовал...

сейчас посмотрел, капчу спрашивает
Цитата Сообщение от blackbanny Посмотреть сообщение
а есть например сайт whoishostingthis.com (с помощью него хочу узнать хостера сайта), он выдает просто страницу без капчи, а с текстом мол нельзя автоматом парсить...
Плохо Исходные данные противоречат друг другу.

Я подозреваю, что после третьего запроса в минуту (к примеру) оно начинает выплевывать капчу как яндекс, после десятого (пятидесятого) - тупо отфутболивать бота.


у меня не апплет, а десктопное приложение...
Разница, по сути, небольшая.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
12.04.2013, 23:16
Помогаю со студенческими работами здесь

Парсинг сайтов
Здравствуйте, подскажите хорошую библиотеку для парсинга сайтов и желатьльно ссылку на документацию, заранее спасибо!

Парсинг сайтов
Добрый день, такая ситуация: делаю парсер нескольких сайтов. парсю с помощью simple_html_dom.php при открытии сайта берем с...

Парсинг русских сайтов
Здравствуйте! Я учусь парсить сайты. На примере википедии. Возникла проблема: когда запускаю для английской википедии, всё хорошо. А когда...

Парсинг сайтов с ограничениями
Добрый день, уважаемые программисты. Опыт работы с PHP низок, но дана задача, которую надо реализовать. Необходимо пропарсить...

Парсинг сайтов на Python
Всем привет. В программировании новичок. Появилась необходимость спарсить страничку Пробовал через BeautifulSoup. Получился такой код: ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
12
Ответ Создать тему
Новые блоги и статьи
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20% kYBz3eJf3jQ
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru