Форум программистов, компьютерный форум, киберфорум
PHP: сети
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.50/8: Рейтинг темы: голосов - 8, средняя оценка - 4.50
 Аватар для Greeezly
6 / 6 / 1
Регистрация: 31.08.2012
Сообщений: 230

Парсер против регистрации

01.08.2014, 20:11. Показов 1695. Ответов 18
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день. Вот есть самый простой парсер на php с использованием библиотеки SimpleHTMLDOM (файл прикрепляю).
PHP
1
2
3
4
5
6
7
8
9
10
11
12
<?php
$url = 'http://example.ru/';
require_once 'simple_html_dom.php';
$data = file_get_html($url);
if(count($data->find('table')))
{
    foreach($data->find('table') as $a)
    {
        echo $a->innertext;
    }
}
?>
Мне интересно, что делать, если на сайте стоит некая регистрация с вводом аккаунта. Парсера выкидывает на главную страницу
Вложения
Тип файла: rar simple_html_dom.rar (14.0 Кб, 7 просмотров)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
01.08.2014, 20:11
Ответы с готовыми решениями:

Вывод уведомления о успешной регистрации(не удачной) на странице с формой регистрации
Здравствуйте, не получается сделать вывод сообщения на странице с формой регистрации. &lt;?php $dbc = mysqli_connect('...',...

Создание регистрации и аутентификации spring. Логика регистрации и авторизации
Для регистрации юзера на сервер приходят данные в json формате(логин пароль подтвержденный пароль). Принимаю их на контроллер на маппинг...

Вывести форму регистрации для регистрации другого пользователя
Здравствуйте, уважаемые форумчане! Простите, вообще не бум-бум в Joomle, но нужно сделать лабу по нему. Мне нужно сделать регистрацию...

18
 Аватар для Greeezly
6 / 6 / 1
Регистрация: 31.08.2012
Сообщений: 230
02.08.2014, 19:55  [ТС]
Подскажите, кто шарит
0
SV
55 / 55 / 25
Регистрация: 03.08.2014
Сообщений: 258
04.08.2014, 01:58
Для начала - разобраться как обычно устроена регистрация и авторизация в ПХП.
Ну там - что такое сессия, что такое куки, каки оно всё связано, тыры-пыры.

Дальше пойдет как по маслу
0
 Аватар для Greeezly
6 / 6 / 1
Регистрация: 31.08.2012
Сообщений: 230
04.08.2014, 08:13  [ТС]
С этим знаком. Второй день капаюсь в парсере, не могу понять почему не авторизуется. Переделал его через чистый curl
0
SV
55 / 55 / 25
Регистрация: 03.08.2014
Сообщений: 258
04.08.2014, 12:25
А в чем тогда проблема? Как авторизацию делаете?
0
15 / 15 / 8
Регистрация: 29.07.2014
Сообщений: 120
04.08.2014, 22:34
Цитата Сообщение от Greeezly Посмотреть сообщение
почему не авторизуется
Цитата Сообщение от SV Посмотреть сообщение
А в чем тогда проблема?
Парсер вообще-то не должен задачи сетевого взаимодействия решать.
Он должен уметь структуру документа разбирать.
0
SV
55 / 55 / 25
Регистрация: 03.08.2014
Сообщений: 258
04.08.2014, 22:45
artnazarov, да ладно вам, называть парсером три строчки пхп кода просто автор темы не в курсе этих нюансов
0
15 / 15 / 8
Регистрация: 29.07.2014
Сообщений: 120
05.08.2014, 00:00
Greeezly, а Вы с одного IP их парсите? Проблем у источника данных с нагрузкой не возникнет, их ваш loadimpact не напрягает еще? )
Если это так сказать вопрос бизнеса, не проще договориться о доступе к данным на взаимовыгодных условиях? Может они Вам данные могут в XML, JSON отдавать как-то?
Кликните здесь для просмотра всего текста
Так и будем table парсить, пока opendata, semantic schemas и микроформаты нормой не станут...
0
 Аватар для Greeezly
6 / 6 / 1
Регистрация: 31.08.2012
Сообщений: 230
05.08.2014, 07:07  [ТС]
Регистрацию сейчас делаю на cURL:
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
header('Content-Type: text/html; charset=CP1251');
$url = 'http://fantasts.ru/forum/index.php?s=SID&act=Login&CODE=01&CookieDate=1';
curl_setopt($ch, CURLOPT_URL, $url); // отправляем на 
curl_setopt ($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (бла бла бла..) "); 
curl_setopt($ch, CURLOPT_HEADER, 0); // пустые заголовки
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // следовать за редиректами
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 30);// таймаут4
curl_setopt($ch, CURLOPT_REFERER, "http://fantasts.ru/forum/index.php");
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);// просто отключаем проверку сертификата 
curl_setopt($ch, CURLOPT_COOKIEJAR, dirname(__FILE__).'/my_cookies.txt'); // сохранять куки в файл
curl_setopt($ch, CURLOPT_COOKIEFILE,  dirname(__FILE__).'/my_cookies.txt');
curl_setopt($ch, CURLOPT_POST, 1); // использовать данные в post
$login = array(
    'UserName' => 'YourLogin',
    'PassWord' => 'YourPass'
);
curl_setopt(($ch), CURLOPT_POSTFIELDS, $login);
curl_exec($ch); 
if (curl_errno($ch)) 
{
   print curl_error($ch);
   exit;
} 
curl_close($ch);
Добавлено через 44 секунды
Цитата Сообщение от artnazarov Посмотреть сообщение
Если это так сказать вопрос бизнеса
Это не для бизнеса.
0
15 / 15 / 8
Регистрация: 29.07.2014
Сообщений: 120
05.08.2014, 08:46
Все понятно, вы пытаетесь авторизоваться, используете
Цитата Сообщение от Greeezly Посмотреть сообщение
cURL
Получение данных с помощью CURL выглядит так, минимальный рабочий код:
Сравните со своим.
Кликните здесь для просмотра всего текста
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
$username = 'myuser';
$password = 'mypass';
$loginUrl = 'http://www.example.com/login/';
 
//init curl
$ch = curl_init();
 
//Set the URL to work with
curl_setopt($ch, CURLOPT_URL, $loginUrl);
 
// ENABLE HTTP POST
curl_setopt($ch, CURLOPT_POST, 1);
 
//Set the post parameters
curl_setopt($ch, CURLOPT_POSTFIELDS, 'user='.$username.'&pass='.$password);
 
//Handle cookies for the login
curl_setopt($ch, CURLOPT_COOKIEJAR, 'cookie.txt');
 
//Setting CURLOPT_RETURNTRANSFER variable to 1 will force cURL
//not to print out the results of its query.
//Instead, it will return the results as a string return value
//from curl_exec() instead of the usual true/false.
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
 
//execute the request (the login)
$store = curl_exec($ch);
 
//the login is now done and you can continue to get the
//protected content.
 
//set the URL to the protected file
curl_setopt($ch, CURLOPT_URL, 'http://www.example.com/protected/download.zip');
 
//execute the request
$content = curl_exec($ch);
 
//save the data to disk
file_put_contents('~/download.zip', $content);


Массу полезного почерпнете по ссылкам, там все о том, как залогиниться на сайт и что делать дальше 1 и 2

Вы можете не использовать чистый cURL, а воспользоваться навороченными отлаженными обертками, вроде Snoopy или Shuber-curl. Обязательно посмотрите, ими для написания парсеров пользуются.
Из того, что на слуху и хорошо документированы: Guzzle, Buzz, HttpFul, Zebra Curl
0
 Аватар для Greeezly
6 / 6 / 1
Регистрация: 31.08.2012
Сообщений: 230
08.08.2014, 09:32  [ТС]
Он логинится на сайт и сохранят куки в файл, но я не пойму как теперь сделать чтобы при редиректе сайта он куки отправил, потом что его выкидывает

Добавлено через 22 часа 10 минут
Ура, сделал. Кому интересно, в результате код авторизации получился такой:
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
<?php
 
$url = 'http://fantasts.ru/forum/index.php?act=Login&CODE=01&CookieDate=1';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url); // отправляем на 
curl_setopt ($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0"); 
curl_setopt($ch, CURLOPT_HEADER, 0); // пустые заголовки
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // возвратить то что вернул сервер
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // следовать за редиректами
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 30);// таймаут4
curl_setopt($ch, CURLOPT_REFERER, "http://fantasts.ru/forum/index.php");
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);// просто отключаем проверку сертификата 
curl_setopt($ch, CURLOPT_COOKIEJAR, dirname(__FILE__).'/my_cookies.txt'); // сохранять куки в файл
curl_setopt($ch, CURLOPT_COOKIEFILE, '/my_cookies.txt');
curl_setopt($ch, CURLOPT_POST, 1); // использовать данные в post
$login = array(
    'UserName' => 'YourLogin',
    'PassWord' => 'YourPass'
);
curl_setopt(($ch), CURLOPT_POSTFIELDS, $login);
$result1 = curl_exec($ch);
$url2 ='http://fantasts.ru/forum/index.php?';
curl_setopt($ch, CURLOPT_URL, $url2);
curl_setopt($ch, CURLOPT_REFERER, "http://fantasts.ru/forum/index.php?act=Login&CODE=01&CookieDate=1");
curl_setopt($ch, CURLOPT_COOKIEFILE, '/my_cookies.txt');
$result2 = curl_exec($ch);
if (curl_errno($ch)) 
{
   print curl_error($ch);
   exit;
}
else
{
    echo 'LOGIN WAS SUCCESFULL';
    echo $result2;
}
curl_close($ch);
 
?>
Объясните только, почему когда я ставлю
PHP
1
curl_setopt($ch, CURLOPT_HEADER, 0); // пустые заголовки
Все норм (хотя как он работает без заголовков??)
А если пытаюсь еще больше быть похожим на браузер, т.е. пишу
PHP
1
2
3
4
5
6
7
8
$header  = array
(
    'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language: ru-RU,ru;q=0.8,en-US;q=0.5,en;q=0.3',
    'Accept-Encoding: gzip, deflate',
    'Content-type: application/x-www-form-urlencoded'
);
curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
На выходе получаю кракозябры, которые ни один декодер не понимает
0
0 / 0 / 0
Регистрация: 09.10.2014
Сообщений: 3
09.10.2014, 18:22
Цитата Сообщение от Greeezly Посмотреть сообщение
Ура, сделал.
Дружище, а можно узнать с какой целью вы пишете парсер на наш форум? Вот нам интересно...
0
365 / 372 / 89
Регистрация: 01.12.2013
Сообщений: 1,629
09.10.2014, 18:38
Цитата Сообщение от krai Посмотреть сообщение
Дружище, а можно узнать с какой целью вы пишете парсер на наш форум?
чтоб не парсил сделайте задержку на запрос с одного ip на пару секунд. Уже задолбается парсить. А больше ста запросов за 200 секунд - в бан...

Добавлено через 39 секунд
зависит конечно от того что конкретно он парсит
0
 Аватар для Greeezly
6 / 6 / 1
Регистрация: 31.08.2012
Сообщений: 230
09.10.2014, 18:51  [ТС]
krai,

Во-первых, я вам не дружище.

Во-вторых, парсинг сам по себе никак не запрещен, как я получаю информацию не ваша забота.

И в-третьих форум фантастов я выбрал исключительно случайным образом, мне был нужен любой форум, а на фантастах я уже имею аккаунт. Никакая информация мне там не нужна. Можете спать спокойно.

Добавлено через 1 минуту
Цитата Сообщение от ads Посмотреть сообщение
чтоб не парсил
типо это лучшая защита от парсинга?)
0
365 / 372 / 89
Регистрация: 01.12.2013
Сообщений: 1,629
09.10.2014, 18:53
Цитата Сообщение от Greeezly Посмотреть сообщение
типо это лучшая защита от парсинга?
типа ваш парсер - лучший и поэтому ему нужна лучшая защита?
0
 Аватар для Greeezly
6 / 6 / 1
Регистрация: 31.08.2012
Сообщений: 230
09.10.2014, 18:59  [ТС]
ads,
весьма забавные советы по безопасности, если бы я собирался копировать все подряд, тогда бы да, сработало.
0
0 / 0 / 0
Регистрация: 09.10.2014
Сообщений: 3
09.10.2014, 19:45
Цитата Сообщение от Greeezly Посмотреть сообщение
на фантастах я уже имею аккаунт
Мы в курсе.

Цитата Сообщение от Greeezly Посмотреть сообщение
я выбрал исключительно случайным образом,
Ну что же, поживем - увидим. Хотелось бы верить, конечно...
0
 Аватар для Greeezly
6 / 6 / 1
Регистрация: 31.08.2012
Сообщений: 230
09.10.2014, 20:39  [ТС]
krai, встречный вопрос: Как вы здесь оказались? Как я вижу, вы специально зарегистрировались, чтобы написать мне.
0
0 / 0 / 0
Регистрация: 09.10.2014
Сообщений: 3
09.10.2014, 20:57
Цитата Сообщение от Greeezly Посмотреть сообщение
Как я вижу, вы специально зарегистрировались, чтобы написать мне
Совершенно верно. Пришел по вашим ссылкам - вы их оставили не только здесь. Как бы такие посты не радуют - вероятно, не надо объяснять почему...
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
09.10.2014, 20:57
Помогаю со студенческими работами здесь

Что за журнал регистрации в 1с8.3 есть, где все регистрации сохраняются в отдельными файлами в определенную папку
Здравствуйте, не подскажите, кто знает Что за журнал регистрации в 1с8.3 есть, где все регистрации сохраняются в отдельными файлами...

Занести в БД дату регистрации и дату бесплатного доступа увеличенную на 30 дней от даты регистрации
Ни как не получается занести в БД дату бесплатного доступа (free_access_date) . Если убрать переменную free_access_date, то все остальные...

БС против ПФ?
Есть сайт, главная в выдаче по многим НЧ, под тайтлом быстроссылки ~6-8штук. Пользователь видя нужный раздел, щелкает по быстроссылке тем...

F-22 против Су-37
_VOFdXO929Q Порадовали однако :)

Ul против DIV
Привет. Есть макет, в котором слайдер. Правильно ли оформлять блок ul+li? Или же заменить всё это на div? Как правильнее, удобнее, и тд....


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
19
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
SDL3 для Web (WebAssembly): Работа со звуком через SDL3_mixer
8Observer8 08.02.2026
Содержание блога Пошагово создадим проект для загрузки звукового файла и воспроизведения звука с помощью библиотеки SDL3_mixer. Звук будет воспроизводиться по клику мышки по холсту на Desktop и по. . .
SDL3 для Web (WebAssembly): Основы отладки веб-приложений на SDL3 по USB и Wi-Fi, запущенных в браузере мобильных устройств
8Observer8 07.02.2026
Содержание блога Браузер Chrome имеет средства для отладки мобильных веб-приложений по USB. В этой пошаговой инструкции ограничимся работой с консолью. Вывод в консоль - это часть процесса. . .
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru