Форум программистов, компьютерный форум, киберфорум
PHP: сети
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.50/10: Рейтинг темы: голосов - 10, средняя оценка - 4.50
 Аватар для Nebiros
41 / 40 / 16
Регистрация: 23.03.2010
Сообщений: 3,122

Закодированный ответ при парсинге

10.11.2018, 12:53. Показов 1982. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Ранее я парсил один сайт и контентом все было нормально, но вот в определенный момент я начал получать ответ такого плана...
HTML5
1
��Ͻ �0�Oqf(u8�C���u�3��a.I��ڷo �t*�������DM]x�C�ںL��r����u�a&�~"9�J(��I�%�ǁQ��Β�� t�m@�������Ev����¢��H�K�~�2m��gSl����L�p10)�1�=�����l���2J����S�� l4�R�\KR545��SKB2s�Lk}���ԒD��Ģ�...........................
как это можно раскодировать и чем?

Добавлено через 2 минуты
тут не не совсем так отображается, но там знаки вопроса в черном ромбике и набор разных символов......
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
10.11.2018, 12:53
Ответы с готовыми решениями:

Блокируют при парсинге
Привет. Пытаюсь парсить один сайт. После выкачки пары страниц происходит блокировка, как я думаю, по ip, т.к. потом и с браузера своего...

Ошибка ERR_CONNECTION_RESET при парсинге
Всем привет. Сразу скажу, что я перерыл почти весь интернет и не нашел решения этой проблемы там. В общем сейчас пишу парсер и наткнулся на...

Как обойти блокировки IP при регулярном парсинге?
Собираюсь регулярно парсить товары из крупного интернет магазина. Мне посоветовали использовать прокси сервера для возможных блокировок ip....

4
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18258 / 14183 / 5366
Регистрация: 17.03.2014
Сообщений: 28,870
Записей в блоге: 1
10.11.2018, 13:29
Nebiros, сжатый контент видимо. Посмотри какой Content-Encoding пришел от сервера.
1
 Аватар для Nebiros
41 / 40 / 16
Регистрация: 23.03.2010
Сообщений: 3,122
10.11.2018, 13:48  [ТС]
начал тестировать разные способы и вот что выяснилось, я использую курл

PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
$ch=curl_init();
curl_setopt($ch,CURLOPT_URL,$url);
curl_setopt($ch,CURLOPT_TIMEOUT,30);
curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,30); 
curl_setopt($ch,CURLOPT_FOLLOWLOCATION,FALSE);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,TRUE);
curl_setopt($ch,CURLOPT_SSL_VERIFYPEER,FALSE);
curl_setopt($ch,CURLOPT_SSL_VERIFYHOST,FALSE);
curl_setopt($ch,CURLOPT_HEADER,FALSE);
curl_setopt($ch,CURLOPT_POST,FALSE);
$content=curl_exec($ch);
curl_close($ch);
echo "===============>".$content;
и с такого запроса мне приходит "абракадабра", использовал простой file_get_content и там мне пришел нормальный ответ...
Но для моих запросов нужен именно курл, так как нужна многопоточность и прокси...
Я так так понимаю нужны какие то корректировки в курле, только вот что именно...

Добавлено через 1 минуту
Цитата Сообщение от OwenGlendower Посмотреть сообщение
Nebiros, сжатый контент видимо. Посмотри какой Content-Encoding пришел от сервера.
HTML5
1
HTTP/1.1 200 OK Content-Type: text/html;charset=UTF-8 Transfer-Encoding: chunked........
Добавлено через 12 минут
HTML5
1
Content-Encoding: gzip
я так понимаю это сжатый, теперь буду искать как его в нормальный вид перевести...

Добавлено через 2 минуты
добавил
PHP
1
curl_setopt($ch,CURLOPT_ENCODING , "gzip");
стало нормально, вопрос а если вдруг контент не будет сжат то что я тогда получу?
0
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18258 / 14183 / 5366
Регистрация: 17.03.2014
Сообщений: 28,870
Записей в блоге: 1
10.11.2018, 14:02
Лучший ответ Сообщение было отмечено Nebiros как решение

Решение

Цитата Сообщение от Nebiros Посмотреть сообщение
а если вдруг контент не будет сжат то что я тогда получу?
Цитата из документации
The contents of the "Accept-Encoding: " header. This enables decoding of the response. Supported encodings are "identity", "deflate", and "gzip". If an empty string, "", is set, a header containing all supported encoding types is sent.
Раз это заголовок Accept-Encoding который управляет автоматической распаковкой, то в случае несжатого контента он просто будет возвращен как есть.
1
 Аватар для Sheriffk018
5 / 4 / 1
Регистрация: 02.01.2017
Сообщений: 101
12.11.2018, 21:51
Nebiros,
Вообще стандартный набор у меня в случае GET запроса:
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
$curl->SetCurl(
    array(
        CURLOPT_URL => 'http://*****'.http_build_query( array( 
            '*****' => '***',
            '*****' => '***',
        ) ),
        CURLOPT_HEADER => true,
        CURLOPT_HTTPHEADER => array(
            'Host: *****',
            'User-Agent: *****',
            'Accept: *****',
            'Accept-Language: *****',
            'Accept-Encoding: *****',
            'Referer: http://*****',
        ),
        CURLINFO_HEADER_OUT => true,
        CURLOPT_RETURNTRANSFER => true,
        CURLOPT_NOBODY => false,
        CURLOPT_PROXY => array_rand( array_flip( $proxyList ) ),
        CURLOPT_COOKIEFILE => __DIR__ .'cookie.txt',
        CURLOPT_COOKIEJAR => __DIR__ .'cookie.txt',
        CURLOPT_TIMEOUT => 10,
        CURLOPT_CONNECTTIMEOUT => 10,
        CURLOPT_ENCODING => 'identity,gzip,deflate',
    ),
    array(
        CURLINFO_HTTP_CODE,
        CURLINFO_EFFECTIVE_URL,
        CURLINFO_HEADER_OUT,
    )
);
Первый массив загоняю в: curl_setopt_array();
Второй массив для :curl_getinfo();
Если разбираете через phpQuery,дополнительно можно указать : <meta charset="utf-8">.
PHP
1
$arrResponse = pq( phpQuery::newDocumentHTML( '<meta charset="utf-8">'.$response ) )->find( 'table[class=""]' );
И как правило проблем с кодировкой не возникает!Удачи.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
12.11.2018, 21:51
Помогаю со студенческими работами здесь

Как получить страницу при парсинге? (401 ошибка)
Здравствуйте. Скорее всего все просто должно решаться, но что-то не так делаю. Необходимо получить данные с сайта myscore.com.ua, а...

Ответ сервера 'HTTP/1.1 500' при парсинге
Привет, пытаюсь спарсить страницу сайта компонентом IdHTTP: Memo1-&gt;Text=IdHTTP1-&gt;Get(&quot;http://site.ru/&quot;); Раньше все работало, но...

Ошибка при парсинге
&lt;form action=&quot;&quot; method=&quot;post&quot; name=&quot;s&quot;&gt; &lt;textarea cols=&quot;50&quot; rows=&quot;10&quot; name=&quot;area&quot;&gt;&lt;/textarea&gt;&lt;br&gt;&lt;br&gt; &lt;input type=&quot;submit&quot; value=&quot; ...

Кодировка при парсинге
не пойму что не так с кодировкой и как ее настроить правильно, а именно вот наглядный пример $test=&quot;тест&quot;; ...

Блокировка при парсинге
Доброго времени суток. Вопрос. Парсю сайт, но через некоторое время меня блокируют на нем. Подскажите, может кто знает как избежать этого...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Первый деплой
lagorue 16.01.2026
Не спеша развернул своё 1ое приложение в kubernetes. А дальше мне интересно создать 1фронтэнд приложения и 2 бэкэнд приложения развернуть 2 деплоя в кубере получится 2 сервиса и что-бы они. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит токи на L и напряжения на C в установ. режимах до и. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Изучаю kubernetes
lagorue 13.01.2026
А пригодятся-ли мне знания kubernetes в России?
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru