Форум программистов, компьютерный форум, киберфорум
PHP: сети
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.76/21: Рейтинг темы: голосов - 21, средняя оценка - 4.76
1 / 1 / 3
Регистрация: 05.06.2014
Сообщений: 21

CURL, получение содержимого страницы

03.08.2015, 03:06. Показов 4495. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте!
Исключительно в целях получения опыта в работе с cURL решил получить содержимое одной страницы:

PHP
1
2
3
4
5
6
7
8
<?PHP 
$ch = curl_init('http://rabota.e1.ru/resume/Kalyanshchik_barmen?id=78517893');
curl_setopt  ($ch, CURLOPT_HEADER, true);
curl_setopt  ($ch, CURLOPT_RETURNTRANSFER, true);
echo $text = iconv('UTF-8', 'CP1251', curl_exec($ch)); // без этого преобразования на денвере получаю крокозябры. На сервере всё происходит нормально и без этого
 
curl_close($ch);
?>
Но основной блок с резюме скрипт не получает, единственное что могу увидеть - это фото, имя, фамилию, количество полных лет и "cтудент очник образование, гибкий график".
Остальная нужная мне информация, по всей видимости, защищена от таких любопытных, как я.

Плагин для хрома live http headers, показывает три запроса касающихся именно этого сайта:

Первый. (к стати, почему запрос POST, но ничего не передаётся?)

Кликните здесь для просмотра всего текста
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
POST http://rabota.e1.ru/resume/Kalyanshchik_barmen?id=78517893
Status: HTTP/1.1 200 OK
Request Headers
Accept  */*
Accept-Encoding gzip, deflate
Accept-Language ru-RU,ru;q=0.8,en-US;q=0.6,en;q=0.4
Content-Type    application/x-www-form-urlencoded
Cookie  yandexuid=673267961438518428;
yabs-sid=1825162021438518428
Origin  http://rabota.e1.ru
Referer http://rabota.e1.ru/resume?limit=10&offset=0
User-Agent  Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.125 Safari/537.36
Response Headers
Connection  keep-alive
Content-Encoding    gzip
Content-Security-Policy-Report-Only default-src 'none'; img-src 'self' http://*.ngs.ru http://*.e1.ru http://counter.nn.ru http://catalog.metka.ru http://c.tbex.ru data: http://counter.yadro.ru http://tab.reformal.ru http://log.reformal.ru http://reformal.ru http://stats.g.doubleclick.net https://stats.g.doubleclick.net http://www.tns-counter.ru http://pbs.twimg.com https://pbs.twimg.com https://mc.yandex.ru http://www.google-analytics.com http://tile0.maps.2gis.com; style-src 'self' 'unsafe-inline' http://*.ngs.ru; script-src 'self' 'unsafe-eval' 'nonce-49bbcf9718381d695c3d1bdcf2a6ae3a' http://*.ngs.ru http://c.tbex.ru https://vk.com http://mc.yandex.ru https://mc.yandex.ru http://stats.g.doubleclick.net https://stats.g.doubleclick.net http://www.google-analytics.com https://www.google-analytics.com http://media.reformal.ru http://www.tns-counter.ru http://catalog.api.2gis.ru/ http://stat.api.2gis.ru http://api-maps.yandex.ru https://api-maps.yandex.ru http://platform.twitter.com http://pagead2.googlesyndication.com https://pagead2.googlesyndication.com http://*.adriver.ru; connect-src 'self' http://api.zp.ru https://mc.yandex.ru; child-src 'self' http://vk.com https://vk.com http://content.adriver.ru https://syndication.twitter.com http://googleads.g.doubleclick.net https://googleads.g.doubleclick.net; object-src http://reklama.ngs.ru; font-src 'self'; frame-ancestors 'self' http://*.trud.com http://*.metrika.yandex.ru http://webcache.googleusercontent.com http://hghltd.yandex.net http://translate.googleusercontent.com; report-uri /errors/csp/
Content-Type    text/html; charset=utf-8
Date    Sun, 02 Aug 2015 23:48:04 GMT
Keep-Alive  timeout=20
Server  nginx/1.2.9
Transfer-Encoding   chunked
X-Frame-Options SAMEORIGIN
X-Request-ID    49bbcf9718381d695c3d1bdcf2a6ae3a
X-Request-Node  narod.ru


второй:

Кликните здесь для просмотра всего текста
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
GET http://rabota.e1.ru/api/v1/resumes/78517893/?city_id=994
Status: HTTP/1.1 200 OK
Request Headers
Accept  image/webp,*/*;q=0.8
Accept-Encoding gzip, deflate, sdch
Accept-Language ru-RU,ru;q=0.8,en-US;q=0.6,en;q=0.4
Cookie  guid=AE31660C55BE0C9CX1438518428
Referer http://rabota.e1.ru/resume/Kalyanshchik_barmen?id=78517893
User-Agent  Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.125 Safari/537.36
Response Headers
Connection  keep-alive
Content-Encoding    gzip
Content-Type    application/json; charset=utf-8
Date    Sun, 02 Aug 2015 23:48:06 GMT
Keep-Alive  timeout=20
Server  nginx/1.2.9
Transfer-Encoding   chunked
Vary    Accept-Encoding
X-Request-ID    0504de728b1f610eb41c3296681ffdf3
X-Request-Node  narod.ru


и третий:

Кликните здесь для просмотра всего текста
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
GET http://rabota.e1.ru/api/v1/resumes/78517893/views/
Status: HTTP/1.1 204 No Content
Request Headers
Accept  text/css,*/*;q=0.1
Accept-Encoding gzip, deflate, sdch
Accept-Language ru-RU,ru;q=0.8,en-US;q=0.6,en;q=0.4
Cookie  PHPSESSID=4l10n2mjei03d1qce93okoiq04;
ANKETOLOG_CSRF_TOKEN=91ae57bc5e0e85da86b15c2f27fba81a86ccf0eb;
test_cookie=1
Referer https://anketolog.ru/api/v2/frame/survey/131639?token=tv8qbTci
User-Agent  Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.125 Safari/537.36
Response Headers
Access-Control-Allow-Headers    X-Requested-With, Content-Type, X-Method-Override, Authorization
Access-Control-Allow-Methods    GET, POST, PUT, DELETE, OPTIONS, PATCH, HEAD
Access-Control-Allow-Origin http://rabota.e1.ru
Connection  keep-alive
Content-Type    application/json; charset=utf-8
Date    Sun, 02 Aug 2015 23:48:06 GMT
Keep-Alive  timeout=20
Server  nginx/1.2.9
X-Request-ID    d270ccbfb56f31cfe13172df29ab98ba
X-Request-Node  narod.ru


Попробовал через мобильную версию сайта получить информацию, но опять-же ничего не получилось.
Пытаюсь передать хедеры, и всё-равно не даёт результат, только ломается кодировка: одни лишь знаки вопросов вместо текста. Пытался разные значения Accept-Encoding и Accept-Charset. Ниже просто пример того, что я передавал.

PHP
1
2
3
4
5
6
7
8
9
$headers = array
(
    'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*;q=0.8',
    'Accept-Language: ru,en-us;q=0.7,en;q=0.3',
    'Accept-Encoding: deflate',
    'Accept-Charset: windows-1251,utf-8;q=0.7,*;q=0.7'
); 
 
curl_setopt($ch, CURLOPT_HTTPHEADER,$headers);
Я конечно понимаю, что портал защищен от парсинга, а я вот только сегодня впервые узнал что такое curl, но всё-же дайте совет как это обойти.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
03.08.2015, 03:06
Ответы с готовыми решениями:

CURL получение содержимого m3u8
В общем пишу api для граббинга m3u8, есть функция которая отдает ссылку на файл, ссылка в таком виде...

Получение страницы через cURL с учетом хэша в ссылке
Загруш курлом страницу с гет параметрами, все получается. Но теперь появилась страница еще и с параметром после &quot;#&quot;, а при...

CURL, JS и сохранение страницы
есть страница, вся информация отдаётся через js, ajax и прочие ассинхронные радости. авторизусь, перед выводом пишу в head страницы, тег...

1
Эксперт PHP
3899 / 3237 / 1353
Регистрация: 01.08.2012
Сообщений: 10,909
03.08.2015, 09:54
Видимо, остальные данные приходят через аякс. Придётся проанализировать каждый запрос и попытаться его воспроизвести.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
03.08.2015, 09:54
Помогаю со студенческими работами здесь

CUrl не загружает некоторые страницы
Пытаюсь скачать страницу https://lenta.ru/rss/news, но cUrl ничего не грузит, как будто вообще никакого ответа с сервера не приходит....

Как добавить страницы к парсингу? (cURL)
Есть код: &lt;html&gt; &lt;head&gt;&lt;/head&gt; &lt;body&gt; &lt;?php function browser($url) { $url=&quot;https://site.com/page?p=1&quot;; $ch = curl_init($url);...

Curl парсинг страницы и подмена ссылок
Как мне в полученной странице пройтись по всем ссылкам и привести к такому виду. что имеем /directory/ что нужно ...

Как с Curl грузить страницы, на которых подгружается контент
Кто знает, как с курлом грузить страницы, на которых контент подгружается? Есть например страница стима...

Вместо полной копии страницы выдает только часть кода (cURL)
Не могу понять, почему у меня вместо полной копии страницы выдает абракадабру (шапку только) $url =...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит: токи, напряжения и их 1 и 2 производные при t = 0;. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru