Форум программистов, компьютерный форум, киберфорум
PHP для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/6: Рейтинг темы: голосов - 6, средняя оценка - 5.00
4 / 4 / 2
Регистрация: 15.09.2013
Сообщений: 46

Не удается пропарсить сайт

28.01.2014, 22:23. Показов 1195. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Помогите, пожалуйста, решить проблему: не удается пропарсить сайт 3logic.ru

Для начала попытался вывести весь сайт через curl. Нашел на этом форуме вот такой код:
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
error_reporting(E_ALL);
ini_set('display_errors', 1);
 
 
$ch = curl_init('http://3logic.ru');
curl_setopt($ch, CURLOPT_HEADER, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
curl_setopt($ch, CURLOPT_HTTPHEADER, array(
    'User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'
));
 
 
$page = curl_exec($ch);
 
curl_close($ch);
 
// Если сплошные «????», раскомментировать
//$page = iconv('windows-1251', 'utf-8', $page);
//echo
echo $page;
получается выводить любую страницу, кроме как с этого сайта. Подскажите, пожалуйста, в чем может быть проблема?

когда запускаю этот скрипт, то страница долго грузиться и появляется пустая страница.

Добавлено через 9 часов 37 минут
может ли он быть защищен от парсига? такое вообще бывает?
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
28.01.2014, 22:23
Ответы с готовыми решениями:

Можно ли пропарсить сайт через SimleXml,DOMDocucument?
Обработка файла xml вроде понятна, а файла html? Интересуют именно методы без использования get_file_contents.

Пропарсить сайт, желательно в webbrowser
Доброе время суток, умею пользоваться и регулярными выражениями и HtmlDocument, но тут такая ситуация исходный код страницы имеет вид: ...

Не удаётся посмотреть сайт
Приветствую всех! Я только начинаю осваивать Денвер. Создал сайт "mystite", закинул в Денвер, но просмотреть его не получается. На экран...

7
1943 / 1768 / 825
Регистрация: 23.01.2014
Сообщений: 6,230
28.01.2014, 22:27
Цитата Сообщение от lvovitch Посмотреть сообщение
Помогите, пожалуйста, решить проблему: не удается пропарсить сайт 3logic.ru
PHP
1
2
3
4
<?php
$page = file_get_contents('http://3logic.ru');
echo $page;
?>
Цитата Сообщение от lvovitch Посмотреть сообщение
может ли он быть защищен от парсига? такое вообще бывает?
Нет
0
4 / 4 / 2
Регистрация: 15.09.2013
Сообщений: 46
28.01.2014, 22:50  [ТС]
Цитата Сообщение от pav1uxa Посмотреть сообщение
PHP
1
2
3
4
<?php
$page = file_get_contents('http://3logic.ru');
echo $page;
?>
Нет
Спасибо за ответ! Но так я тоже пытался. Тот же результат - отрицательный.

Добавлено через 1 минуту
еще пытался через сокеты. вот так:

PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
function get_content($hostname, $path)
{
$line="";
//устанавливаем соединение, имя которого
//передано в параметре $hostname
$fd=fsockopen($hostname, 80, $errno, $errstr, 30);
//проверяем успешность установки соединения
if(!$fd) echo "$errstr ($errno)<br>/>\n";
else
{
//формируем HTTP-запрос для передачи его серверу
$headers="GET $path HTTP/1.1\r\n";
$headers.="Host: $hostname\r\n";
$headers.="Connection: Close\r\n\r\n";
//отправляем HTTP-запрос серверу
fwrite ($fd, $headers);
//получаем ответ
while (!feof($fd))
{
$line.=fgets($fd, 1024);
}
fclose($fd);
}
return $line;
}
$hostname="3logic.ru";
$path="/";
//устанавливаем большее время работы
//скрипта- пока вся страница не загружена,
//она не будет отображаться
set_time_limit(180);
//вызываем функцию
echo get_content($hostname, $path);
долго грузится и выдает это: "fsockopen(): unable to connect to 3logic.ru:80 (Connection timed out) "
0
1943 / 1768 / 825
Регистрация: 23.01.2014
Сообщений: 6,230
28.01.2014, 23:14
Цитата Сообщение от lvovitch Посмотреть сообщение
Спасибо за ответ! Но так я тоже пытался. Тот же результат - отрицательный.
Прежде чем выкладывать я проверил этот скрипт у себя и он работает. Возможно сервер, с которого вы пытаетесь зайти на сайт 3logic.ru, забанен на этом сайте или что нибудь вроде того.
1
4 / 4 / 2
Регистрация: 15.09.2013
Сообщений: 46
28.01.2014, 23:37  [ТС]
Цитата Сообщение от pav1uxa Посмотреть сообщение
Прежде чем выкладывать я проверил этот скрипт у себя и он работает. Возможно сервер, с которого вы пытаетесь зайти на сайт 3logic.ru, забанен на этом сайте или что нибудь вроде того.
Да, Вы абсолютно правы. я запустил php сервер дома и с него работает.
а вот у двух разных хостеров не хочет ни в какую.

Буду узнавать у хостеров в чем причина.


Огромное спасибо Вам за помощь!!!!

Добавлено через 19 минут
с хостером предположили причину - сайт блокирует иностранный трафик. По крайней мере он сказал, что ошибка где-то на маршруте.

вот теперь незнаю как быть...
0
0 / 0 / 0
Регистрация: 30.01.2016
Сообщений: 4
30.01.2016, 23:18
Аналогичная проблема и у меня - есть сайт , а пропарсить не удаётся ..... Видимо у меня знаний (опыта) маловато в этом .... Использую LIBCURL (пишу на HARBOUR)
Нужно методом POST - отправить запрос артикула и получить результат . Не получается .
(сайт : shop.eksin.ru ; нужно что-нибудь ввести в поле [ ] и и отправить по кнопке НАЙТИ )
0
 Аватар для monahoff
40 / 40 / 23
Регистрация: 26.01.2012
Сообщений: 317
30.01.2016, 23:29
Юзайте прокси - в настройках cURL есть такая возможность))
0
0 / 0 / 0
Регистрация: 30.01.2016
Сообщений: 4
31.01.2016, 09:21
в исходном тексте страницы есть такой блок кода , по моему мнению - отвечающий за сбор информации и передачу ее на сайт для поиска:
......
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
1<div id="filter-form-container">
2<form action="http://shop.exxn.ru/search/search-number.php" method="post" id="filter-form-number">
3 <input type="hidden" name="userId" value="">
4 <input type="hidden" name="currency" value="RUB">
5 <div class="form_row">
6 <div class="field">
7 <input type="text" name="number" value="" id="filter-number" class="text">
8 </div>
9 </div>
10 <input type="submit" class="btn" value="Найти">
...............
 
А запрос через CURL делаю таким образом :
(синтаксис кода - для HARBOUR , но он не сильно отличается и для других языков ( 
 
      curl_global_init() 
      curl := curl_easy_init() 
      // ВКЛЮЧАТЬ ЗАГОЛОВОК В РЕЗУЛЬТИРУЮЩИЙ ФАЙЛ ?  F - то есть НЕТ 
      curl_easy_setopt(curl, HB_CURLOPT_HEADER, .F.) 
 
      curl_easy_setopt(curl, HB_CURLOPT_URL, 'http://shop.exxn.ru/search/filter-number.php')   // Запрос - URL  
 
             // установить для HTTP метод запроса как POST     //   строка №2 в коде 
              curl_easy_setopt(curl, HB_CURLOPT_POST, .T. ) 
 
         // установить значения для передачи по  POST
         //  строка №7 кода - параметр 'number'  - это артикул для поиска  и его значение '140850'  
         // то есть мы как-бы ввели строку '140850'  в поле для ввода и отправляем ее на сайт 
         //  поля User и Password  можно не передавать - в браузере я эти поля не заполняю и результаты всё-равно сайт выдаёт 
         //  и без них 
 
         curl_easy_setopt(curl, HB_CURLOPT_POSTFIELDS,'number=140850' )
 
    
         // Отправили сформированную строку запроса на сайт 
      curl_easy_perform(curl) 
      result := curl_easy_dl_buff_get(curl) 
 
        // буфер - result - пустой :(

Что не так ?
(вместо exxn.ru - нужно писать другое название )
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
31.01.2016, 09:21
Помогаю со студенческими работами здесь

Не удается зайти на сайт с другого IP
Установил и настроил Apache на компьютере, зарегистрировал домен и привязал его к IP, создал папку сайта, настроил на нее апач, в hosts...

Не удается загрузить файлы на сайт
Добрый день, не могу загрузить файлы, плагины, темы, на сайт, новый wp не пишет каких прав на папки ему не хватает. Пример: Загрузка...

Не удается зайти на сайт из-за касперского
у меня блокирует один сайт из-за антивирусника касперского)вроде поставила этот сайт в исключение ,но все равно не заходит...как только...

Не удается зайти на определенный сайт
Добрый день. Вообщем такая проблема, не могу зайти на определенный сайт ( у других он работает ). Началось все с того что, данный сайт...

Не удается редирект на случайный сайт
Доброго дня! Видел, что были похожие темы, но решения, предложенные ранее больше не работают! Создал такую страничку редиректа: ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru