Форум программистов, компьютерный форум, киберфорум
PHP: сети
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Заблокирован

Парсинг сайта

01.07.2016, 15:34. Показов 762. Ответов 0
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Нужно спасить сайт, а именно например эту страницу http://uah.bncollege.com/webap... TBListView
Открывать нужно отсюда http://uah.bncollege.com/webap... reId=65067

В чем соль: этот сайт когда заходишь на него кидает редирект через js после которого он выдает куки на определенное кол-во обращений к странице, после этих обращений он опять редиректит, выдает и т.д.

Для получения этой страницы нужно заранее получить куки, однако на запрос к предыдущей странице(которая и выдает необходимые куки) он их выдает, но все кроме 1.

прилагаю запрос-ответ через браузер
Кликните здесь для просмотра всего текста
http://brooklyn.bncollege.com/webapp/wcs/stores/servlet/TBWizardView?catalogId=10001&langId=-1&storeId=25555

POST /webapp/wcs/stores/servlet/TBWizardView?catalogId=10001&langId=-1&storeId=25555 HTTP/1.1
Host: brooklyn.bncollege.com
User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:39.0) Gecko/20100101 Firefox/39.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate
Referer: http://brooklyn.bncollege.com/... reId=25555
Cookie: TS015810ea_76=088fa87ca9ab2800e5e7d8acf9 3cac897b36b867eb48776e28e68fb8c8324c7d2d 4f2a6d2bad31b0ca8598db2de05dd408b604b8bf 87f800a4454851ad83ef73c029c3243a27725afb ce3bd70b6ecdb75e2d589d092951c639fd6556e0 a4699fbc24b944e8929890f2a391ec168aa77ae6 b31bf754bba8e3d10374c66aa9e88ace6a33d571 d79d57bdcb1a1e108d67f1f351c72b2650899d68 8831a2e8aff06bfc7c40f6a3c71644bbc0c00acd 52fe2bff39603bb9f7758d48f3b32fd74af7212e ad3b2271b2562e8a57044413a2eb53fa6dd54b56 34d77689d9781abfe311d7b8b9ffd14ff1e3b936 dfff0d464cde719478b6f9cc12567bad4e50803e 7cd7dbb1993eeaa1602236af3b01db8dbe1123a8 c0cfe5d9b7d70981e4385387efe6255b193e7d50 52512ce050b04bce70cbe7; CoreID6=36741742336714673680996&ci=90222 933; 90222933_clogin=l=1467368099&v=7&e=14673 69899855
Connection: keep-alive
Content-Type: application/x-www-form-urlencoded
Content-Length: 1267
TS015810ea_id=3&TS015810ea_cr=088fa87ca9 ab2800e5e7d8acf93cac897b36b867eb48776e28 e68fb8c8324c7d2d4f2a6d2bad31b0ca8598db2d e05dd408b604b8bf894800f597e445010b2646db 3a6b7d2fb559bf17ae5ec99f0f349765fd8d5624 f9b099fbdc5c7b9d4bfe441e2ca8fd6db8b2b4dc fea7dcaeb364c85771ed8e9bb2fb3225d5ad139e 17cc32&TS015810ea_76=088fa87ca9ab2800e5e 7d8acf93cac897b36b867eb48776e28e68fb8c83 24c7d2d4f2a6d2bad31b0ca8598db2de05dd408b 604b8bf88b0009d5f24abd239c752f617dd0365f 3914a509647f82cafdafc7066fb989ae5943f979 5c439cff05bb126717bbcd382200491a47adef49 c1671b82f03ceecfa1b956c9595fd02845b9968a 4e7e5dca3dbfe2eddddd3759c32fbb247eac305b 12a2a98413c5f3f9f1614ad8395556c403308cf7 2a3698b9ca4784c00cad9bb4e799928e9a58cc42 11e27cacb782aedc9c50f0a20b4812974ccf543a de64806ed49eb1f9f12fd4d0b736879d29b4ee33 2ddb7&TS015810ea_86=088fa87ca9ab2800e5e7 d8acf93cac897b36b867eb48776e28e68fb8c832 4c7d2d4f2a6d2bad31b0ca8598db2de05dd408b6 04b8bf8658009b3a9f862175aead992213be21d3 118cf31cb61b2dfdc95af6d588cfc300edfe10de b1b10598db0d7c8f2b7da170120c7fab107ec03f bf4f5d8ce5337a7b25aa413450ffd6205d1f204e b75b8af9d6641d3bc1bd9a9e50f7&TS015810ea_ md=1&TS015810ea_rf=http%3A%2F%2Fbrooklyn .bncollege.com%2Fwebapp%2Fwcs%2Fstores%2 Fservlet%2FTBWizardView%3FcatalogId%3D10 001%26langId%3D-1%26storeId%3D25555&TS015810ea_ct=0&TS01 5810ea_pd=0


HTTP/1.1 200 OK
X-Frame-Options: SAMEORIGIN
CACHED_RESPONSE: true
Pragma: No-cache
Cache-Control: no-cache,no-store,max-age=0
Expires: Thu, 01 Jan 1970 00:00:00 GMT
PerfHeader: duration=D=87783, time=t=1467368103120812
X-UA-Compatible: IE=edge,chrome=1
Content-Type: text/html; charset=ISO-8859-1
Content-Language: en-US
Content-Encoding: gzip
Date: Fri, 01 Jul 2016 10:15:03 GMT
Transfer-Encoding: chunked
Connection: keep-alive, Transfer-Encoding
Vary: Accept-Encoding
Set-Cookie: JSESSIONID=00006u5iAh6IsTuIOQxcdFqspfa rod-appz42; Path=/; Domain=.bncollege.com
Set-Cookie: BIGipServerBNCollege_WEBZ_http_pool=8759 68266.20480.0000; path=/
Set-Cookie: TS015810ea=013589168b7f846b27032329911d8 c49f6eb911245d3a23c14e295fd1d7e579d2b601 832b092481cc322a5b6c53c99902bd6be7592; Path=/
Set-Cookie: TS01971484=013589168bb3d0197ed43c40c8d87 1b7a8f76bf9eea6d880de8b652daeaf342c82d6c 2f0c87d744849bdb0e91daf4932cdfed53588; path=/; domain=.bncollege.com
Set-Cookie: TS015810ea_1=01e8fc688daeb2e35b93c2b3e56 7db7e204581ac008185c474d88ee0535a0983c65 982e20873f54966ae8d0ca8bffa8d06d948b3cc; Path=/
Set-Cookie: TS015810ea_30=01e8fc688d86042096abc7d685 688f6382c6710bb8ac4e3bd73de01797437d1477 03c557743245d30665a294fd4079e9624a1711d9 ; Path=/
Set-Cookie: TS015810ea_27=01e8fc688de3b7ce736af5f247 9e11428fa173992fac4e3bd73de01797437d1477 03c557740d8cb0a0a4d3ee93d8f4c72e37728404 ; Path=/


запрос-ответ из кода
Кликните здесь для просмотра всего текста
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
$curl = curl_init();
$url = "http://brooklyn.bncollege.com/webapp/wcs/stores/servlet/TBWizardView?catalogId=10001&langId=-1&storeId=25555";
curl_setopt($curl,CURLOPT_URL, $url);
 
curl_setopt($curl, CURLOPT_HEADER, true);
 
curl_setopt($curl, CURLOPT_HTTPHEADER, array(
    "Host: brooklyn.bncollege.com",
    "User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:39.0) Gecko/20100101 Firefox/39.0",
    "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    "Accept-Language: en-US,en;q=0.5",
    "Accept-Encoding: gzip, deflate",
    "Referer: http://brooklyn.bncollege.com/webapp/wcs/stores/servlet/TBWizardView?catalogId=10001&langId=-1&storeId=25555",
    "Cookie: TS015810ea_76=088fa87ca9ab2800e5e7d8acf93cac897b36b867eb48776e28e68fb8c8324c7d2d4f2a6d2bad31b0ca8598db2de05dd408b604b8bf87f800a4454851ad83ef73c029c3243a27725afbce3bd70b6ecdb75e2d589d092951c639fd6556e0a4699fbc24b944e8929890f2a391ec168aa77ae6b31bf754bba8e3d10374c66aa9e88ace6a33d571d79d57bdcb1a1e108d67f1f351c72b2650899d688831a2e8aff06bfc7c40f6a3c71644bbc0c00acd52fe2bff39603bb9f7758d48f3b32fd74af7212ead3b2271b2562e8a57044413a2eb53fa6dd54b5634d77689d9781abfe311d7b8b9ffd14ff1e3b936dfff0d464cde719478b6f9cc12567bad4e50803e7cd7dbb1993eeaa1602236af3b01db8dbe1123a8c0cfe5d9b7d70981e4385387efe6255b193e7d5052512ce050b04bce70cbe7; CoreID6=36741742336714673680996&ci=90222933; 90222933_clogin=l=1467368099&v=7&e=1467369899855",
    "Connection: keep-alive",
    "Content-Type: application/x-www-form-urlencoded"
));
 
curl_setopt($curl, CURLOPT_POST, true);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_POSTFIELDS, "Content-Length: 1267 TS015810ea_id=3&TS015810ea_cr=088fa87ca9ab2800e5e7d8acf93cac897b36b867eb48776e28e68fb8c8324c7d2d4f2a6d2bad31b0ca8598db2de05dd408b604b8bf894800f597e445010b2646db3a6b7d2fb559bf17ae5ec99f0f349765fd8d5624f9b099fbdc5c7b9d4bfe441e2ca8fd6db8b2b4dcfea7dcaeb364c85771ed8e9bb2fb3225d5ad139e17cc32&TS015810ea_76=088fa87ca9ab2800e5e7d8acf93cac897b36b867eb48776e28e68fb8c8324c7d2d4f2a6d2bad31b0ca8598db2de05dd408b604b8bf88b0009d5f24abd239c752f617dd0365f3914a509647f82cafdafc7066fb989ae5943f9795c439cff05bb126717bbcd382200491a47adef49c1671b82f03ceecfa1b956c9595fd02845b9968a4e7e5dca3dbfe2eddddd3759c32fbb247eac305b12a2a98413c5f3f9f1614ad8395556c403308cf72a3698b9ca4784c00cad9bb4e799928e9a58cc4211e27cacb782aedc9c50f0a20b4812974ccf543ade64806ed49eb1f9f12fd4d0b736879d29b4ee332ddb7&TS015810ea_86=088fa87ca9ab2800e5e7d8acf93cac897b36b867eb48776e28e68fb8c8324c7d2d4f2a6d2bad31b0ca8598db2de05dd408b604b8bf8658009b3a9f862175aead992213be21d3118cf31cb61b2dfdc95af6d588cfc300edfe10deb1b10598db0d7c8f2b7da170120c7fab107ec03fbf4f5d8ce5337a7b25aa413450ffd6205d1f204eb75b8af9d6641d3bc1bd9a9e50f7&TS015810ea_md=1&TS015810ea_rf=http%3A%2F%2Fbrooklyn.bncollege.com%2Fwebapp%2Fwcs%2Fstores%2Fservlet%2FTBWizardView%3FcatalogId%3D10001%26langId%3D-1%26storeId%3D25555&TS015810ea_ct=0&TS015810ea_pd=0");
 
 
$data = curl_exec($curl);
 
if($data === false){
    curl_close($curl);
    exit("CURL ERROR: ".curl_error($curl));
}
 
echo $data;exit;

HTTP/1.1 100 Continue HTTP/1.1 200 OK
Date: Fri, 01 Jul 2016 10:16:41
GMT Server: Apache/2.4.7 (Ubuntu)
X-Frame-Options: SAMEORIGIN
CACHED_RESPONSE: true
Pragma: No-cache
Cache-Control: no-cache,no-store,max-age=0
Expires: Thu, 01 Jan 1970 00:00:00
GMT PerfHeader: duration=D=173422, time=t=1467368201366097
X-UA-Compatible: IE=edge,chrome=1
Content-Type: text/html;
charset=ISO-8859-1
Content-Language: en-US
Content-Encoding: gzip
Vary: Accept-Encoding
Set-Cookie: JSESSIONID=0000rcN-HavSbLM-tfz-WDySi6Xrod-appz52; Path=/; Domain=.bncollege.com Set-Cookie: BIGipServerBNCollege_WEBZ_http_pool=8927 45482.20480.0000; path=/ Set-Cookie: TS015810ea=013589168b40ec32f0541ceb2f24d 00397a415b34dcb2d31894684909fd2a3ab54b37 f1d44e8eb209c8e332b73d6aa88f632cf93e7; Path=/ Set-Cookie: TS01971484=013589168b7169f88a459a164811c 70cf9018cb1969888c4ac0397f5a839e918a9951 05cd7306fd6c9b6ec6977f9efa66a2e11406f; path=/; domain=.bncollege.com Set-Cookie: TS015810ea_1=01e8fc688d90a06c42d859e15d5 d87709c53e26998363bc4960a7e940c5cfca4bff 367f88d2d82c7a4db6a0f621c596fea55dd09f0; Path=/ Set-Cookie: TS015810ea_30=01e8fc688d7b3319e2a612dc48 8a95a808cc98236f4b6d070110b8689156e3308c 20a4619e017361879955a747bb24c364f467cd64 ; Path=/ Via: 1.1 hma.accdemo.com
Keep-Alive: timeout=5, max=100
Connection: Keep-Alive
Transfer-Encoding: chunked


В ответе из кода не хватает TS015810ea_27, без него никак. Ваши варианты что это?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
01.07.2016, 15:34
Ответы с готовыми решениями:

Парсинг сайта
Стоит такая цель, как выкачать большую базу данных (около 50к объектов) и в последствии выполнять обновление так, чтобы каждый час все...

Парсинг видео с сайта
Привет, подскажите можно ли это реализовать, на каком языке программирования?. В общем стоит цель автоматизировать некий процесс скачки и...

Парсинг сайта с умом
Добрый день уважаемое сообщество. Задался целью парсить данные с сайта Vezetvsem.ru. Соль вопроса, как сделать так, чтобы их...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
01.07.2016, 15:34
Помогаю со студенческими работами здесь

Парсинг частей сайта
Здравствуйте. Подскажите, как можно спарсить часть с сайта между "<title>" и "</title>"? Как получить сам контент готовой...

Парсинг сайта с JavaScript
Есть сайт, на котором контент формируется JavaScript'ом, соответственно, при парсинге через cURL я не вижу данного контента. Вариант:...

Парсинг таблицы на странице сайта
Нужно спарсить данные html-таблицы (названия и данные в ячейках таблицы).

Парсинг сайта с curl , не получается
<?php $useragent = "Opera/9.80 (J2ME/MIDP; Opera Mini/4.2.14912/870; U; id) Presto/2.4.15"; $ch = curl_init (""); curl_setopt...

Php Чтение и парсинг сайта
Доброе время суток, с толкнулся с проблемой. Нужно с сайта https://moodle.kstu.ru/course/view.php?id=2249 вывести на экран все...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
Подключение Box2D v3 к SDL3 для Android: физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
Влияние грибов на сукцессию
anaschu 26.01.2026
Бифуркационные изменения массы гриба происходят тогда, когда мы уменьшаем массу компоста в 10 раз, а скорость прироста биомассы уменьшаем в три раза. Скорость прироста биомассы может уменьшаться за. . .
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip" Извлеките архив и вы увидите. . .
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д. Сборка примера Скачайте. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru