|
130 / 117 / 30
Регистрация: 14.11.2010
Сообщений: 707
|
||||||
Парсинг данных с сайтов11.04.2013, 11:51. Показов 12741. Ответов 11
Метки нет (Все метки)
Доброго времени суток!
Проблема в том, что некоторые сайты запрещают автоматически парсить свои страницы, например yandex выдает капчу, но это я решал с помощью сервиса antigate.com(правда скрипт на PHP писал), индусы разгадывали капчу, я делал повторно запрос и все ок, а есть например сайт whoishostingthis.com (с помощью него хочу узнать хостера сайта), он выдает просто страницу без капчи, а с текстом мол нельзя автоматом парсить... Страницу я получаю с помощью библиотеки Jsoup:
Добавлено через 1 минуту может быть многопоточно выполнять запросы к таким сайтам и сохранять и передавать куки? только вот не знаю, где про это почитать, буду признателен за подсказку
0
|
||||||
| 11.04.2013, 11:51 | |
|
Ответы с готовыми решениями:
11
Парсинг сайтов в Android Studio + выборка данных Парсинг сайтов парсинг сайтов |
|
Музыка нас Связала
232 / 232 / 52
Регистрация: 26.03.2008
Сообщений: 616
|
|
| 11.04.2013, 11:59 | |
|
1
|
|
|
130 / 117 / 30
Регистрация: 14.11.2010
Сообщений: 707
|
|
| 11.04.2013, 12:04 [ТС] | |
|
0
|
|
|
Музыка нас Связала
232 / 232 / 52
Регистрация: 26.03.2008
Сообщений: 616
|
|
| 11.04.2013, 12:24 | |
|
Нет, но бот для браузерной игры работает на ура.
0
|
|
|
130 / 117 / 30
Регистрация: 14.11.2010
Сообщений: 707
|
|
| 11.04.2013, 16:36 [ТС] | |
|
кто-нибудь знает, как без HttpClient парсить такие сайты?
0
|
|
|
349 / 120 / 1
Регистрация: 08.01.2013
Сообщений: 728
|
|
| 11.04.2013, 16:44 | |
|
По идее (я плохо знаком с джавой), библиотека по-умолчанию при скачке скажет серверу неправильный агент. В других средствах (например, curl) есть настройки, которые позволяют задать юзер-агент, куки итд. Настраивайте их аналогично браузеру, тогда сервер не сможет опознать в вашем клиенте бота.
0
|
|
|
130 / 117 / 30
Регистрация: 14.11.2010
Сообщений: 707
|
||
| 11.04.2013, 16:46 [ТС] | ||
|
0
|
||
|
349 / 120 / 1
Регистрация: 08.01.2013
Сообщений: 728
|
||
| 11.04.2013, 17:27 | ||
|
А те сервисы, насколько я понимаю, с первой же операции принимают вас за бота. Простейшая проверка - пустой юзер-агент = бот уже имеет смысл в целях недопущения автоматического копи-паста на мусорки. Или, все-таки, страница с запретом выскакивает после некоторого количества запросов? Тогда ее можно обойти только уменьшение частоты.
0
|
||
|
130 / 117 / 30
Регистрация: 14.11.2010
Сообщений: 707
|
|||||||
| 11.04.2013, 17:47 [ТС] | |||||||
|
Добавлено через 10 минут если с помощью HttpClient ставлю User-Agent, то все равно получаю запрет:
0
|
|||||||
|
349 / 120 / 1
Регистрация: 08.01.2013
Сообщений: 728
|
||
| 11.04.2013, 23:25 | ||
|
"Lookup Limit Reached For Your IP Block" и запрос капчи. Возможно с твоего IP оно уже и капчу не спрашивает? ![]() PS. Апплет запускается с какого-то хостинга? Может на этом сервисе по-умолчанию запрещены запросы с IP хостинговых серверов, находящихся в базе?
0
|
||
|
130 / 117 / 30
Регистрация: 14.11.2010
Сообщений: 707
|
||||
| 12.04.2013, 11:02 [ТС] | ||||
|
видимо я куки не получаю и не отдаб с помощью HttpClient... Fonduee, подскажи, как работать с куки c помощью HttpClient? P.S. я 4 версию качал
0
|
||||
|
349 / 120 / 1
Регистрация: 08.01.2013
Сообщений: 728
|
||||
| 12.04.2013, 23:16 | ||||
Исходные данные противоречат друг другу.Я подозреваю, что после третьего запроса в минуту (к примеру) оно начинает выплевывать капчу как яндекс, после десятого (пятидесятого) - тупо отфутболивать бота.
0
|
||||
| 12.04.2013, 23:16 | |
|
Помогаю со студенческими работами здесь
12
Парсинг сайтов Парсинг сайтов Парсинг русских сайтов Парсинг сайтов с ограничениями Парсинг сайтов на Python Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2.
Задача: реализовать контроль корректности заполнения дат назначения. . .
|
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html
Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
|
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2.
Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
|
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях.
Задача: при копировании документа очищать определенные реквизиты и табличную. . .
|
|
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git
main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели
8ATzM_2aurI
|
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2.
Задача: запретить редактирование документа, если он открыт у другого пользователя.
/ / . . .
|
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои.
А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
|
Модель ЗдрввоСохранения 7: больше работников, больше ресурсов.
anaschu 08.04.2026
работников и заданий может быть сколько угодно, но настроено всё так, что используется пока что только 20%
kYBz3eJf3jQ
|