Форум программистов, компьютерный форум, киберфорум
PHP для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.69/78: Рейтинг темы: голосов - 78, средняя оценка - 4.69
0 / 0 / 0
Регистрация: 26.10.2013
Сообщений: 6

Парсер страницы после отработки JS

12.12.2013, 03:13. Показов 15216. Ответов 12
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый вечер, уважаемые форумчане. Прекрасно понимаю, что я не первый, кто задает подобный вопрос, но я уже третий день бьюсь над проблемой, и не могу найти решение.
Суть такова:
Есть сайт
Code
1
auto.ria.ua
Есть поиск по сайту URL слишком длинный, сделал гиперссылку
На странице результатов поиска есть блок, который я хочу спарсить (ID = search_auto_results)
Скажите, что использовать, что бы получить данные из этого блока? Я не прошу решить за меня эту задачу (хотя это бы был идеальный вариант ), а прошу указать в какую сторону копать. Можно ли это сделать при помощи cUrl ? Можно ли это сделать вообще?
Буду благодарен за любую информацию\помощь\подсказки.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
12.12.2013, 03:13
Ответы с готовыми решениями:

Скрытие анимации после отработки ajax
Проблема заключается в следующем: необходимо скрыть анимацию Load после подгрузки данных на страницу, но я уже запутался. Товарищи...

Рекурсия: после отработки вложенной функции foreach перестает делать предыдущий обход
Всем привет! Делаю иерархию БД. Проблема в следующем: после отработки вложенной функции foreach перестает делать предыдущий обход, в...

Парсер содержимого страницы
Добрый день, только начала изучать CURL, хочу написать простенький парсер для себя. В Интернете достаточно информации, поэтому не...

12
PHP developer
 Аватар для masik49
259 / 157 / 26
Регистрация: 20.03.2013
Сообщений: 1,018
12.12.2013, 10:09
Цитата Сообщение от SkyPro Посмотреть сообщение
Буду благодарен за любую информацию\помощь\подсказки.
Для парсинга на сегодняшний момент достаточно много инструментов, но я бы посоветовал Вам phpQuery.
http://code.google.com/p/phpquery/ - библиотека для парсинга.
0
294 / 265 / 48
Регистрация: 09.04.2013
Сообщений: 1,038
12.12.2013, 11:14
Если конечный вид страницы генерируется на JS, то это как бы само собой намекает, что код страницы парсить без толку, а нужно симулировать JS запросы к серверу.
Предложения первое - разобраться с кодом страницы (в том числе JS) чтобы понять какие параметры куда отправляются и как обрабатывать ответ.
Предложение второе - пропустить трафик через прогу которая покажет к каким страницам браузер обращался и какой ответ получал. Например через программку Fiddler. Через неё ясно видно какие заголовки запросов, какие кукисы и т.п. что потребуется подделывать при запросе к серверу.
0
0 / 0 / 0
Регистрация: 26.10.2013
Сообщений: 6
12.12.2013, 11:31  [ТС]
masik49, спасибо за инфу, вечером попробую (но подозрение, что этим не получится, так как конечный вид, а именно тот блок, который мне нужен, генерируется JS).
wingblack, а чем можно эмулировать эти запросы?
И, просьба, если кому не тяжело, можете посмотреть саму страницу? Действительно ли там генерируется через js или я ошибаюсь и все довольно просто решается?
Просто я далек от js, да и вообще от веб программирования, но очень хочу разобраться (даже книгу себе распечатал "Котеров Костарев php5 в подлиннике" и читаю потихоньку).
0
0 / 0 / 0
Регистрация: 12.12.2013
Сообщений: 8
12.12.2013, 12:33
Приветствую!!!

Посмотрел)) Да, вы правы, там все подгружается через js. Есть решение))) Не сложное) Но пойдет, если скрипт будете запускать дома, на компе, на ВИНДЕ)) Да, именно на Винде, т.к. могу предложить вариант, который будет управлять браузером Интернет Эксплорер)

Итак, код:

PHP
1
2
3
4
5
$browser = new COM('internetexplorer.application');
$browser->visible = true;
$browser->navigate('УРЛ_Сайта');
sleep(2);//надо задержку ставить, т.к. Эксплорер тормозить может(((
$browser->document->innerHTML;//вот тут хранится хтмл
Вот Ваше решение. Сам часто юзаю, если не хочу париться с эммуляцией чего-то((
0
0 / 0 / 0
Регистрация: 26.10.2013
Сообщений: 6
12.12.2013, 12:38  [ТС]
alexandeg, огромное спасибо
Я подобное на VBA делал. Там тоже можно IE управлять. Но проблема в том, что выполнять нужно на сервере. Есть какие либо способы эмулировать браузер на хостинге? Или есть библиотека, которая выполнит яваскрипт и выдаст ДОМ ?
0
0 / 0 / 0
Регистрация: 12.12.2013
Сообщений: 8
12.12.2013, 12:45
Цитата Сообщение от SkyPro Посмотреть сообщение
alexandeg, огромное спасибо
Я подобное на VBA делал. Там тоже можно IE управлять. Но проблема в том, что выполнять нужно на сервере. Есть какие либо способы эмулировать браузер на хостинге? Или есть библиотека, которая выполнит яваскрипт и выдаст ДОМ ?
Насколько знаю, вроде, стоящих нет. Есть какие-то, но от них толку не много. Труъ парсеро-писатели используют курл или просто сокеты для отправки заголовков(которые получают от сниффера). Так что, если ИЕ Вам для парсинга не подходит, то тогда Вам придется юзать сниффер. Самый простой вариант - браузер Мозилла и плагин LiveHTTPHeader
0
294 / 265 / 48
Регистрация: 09.04.2013
Сообщений: 1,038
12.12.2013, 12:59
Я как-то собирал с одного сайтика данные, и для этого требовалось "шифроваться" под браузер отправляя заголовки и поддерживая кукисы (первично стащив нужные куки из браузера после авторизации на сайте), но использовал я другой ЯП, и CURL там не было.

Попробуйте - скачайте Fiddler, возьмите его как прокси, и смотрите что, куда и откуда, а потом с помощью CURL отсылайте такие же заголовки в том же направлении, и про поддержку кукисов тоже не забывайте.

Ответы сервера там скорее всего в формате JSON, что разбирать на PHP одно удовольствие.
1
0 / 0 / 0
Регистрация: 26.10.2013
Сообщений: 6
19.12.2013, 16:42  [ТС]
Очень удобный "сниффер" в опере (которая на базе хромиума). С её помощью нашел ответ сервера в JSON. Отправил те же хедеры через сUrl и получил профит
Как говорится "а ларчик просто открывался".
Спасибо всем за помощь.
0
Sergeant
08.01.2014, 00:15
Поздравляю всех с праздниками. Вопрос такой. Установил расширение как советовал alexandeg. Поймал заголовки

http://auto.ria.com/search_history/
POST /search_history/ HTTP/1.1
Host: auto.ria.com
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:26.0) Gecko/20100101 Firefox/26.0
Accept: text/javascript, text/html, application/xml, text/xml, */*
Accept-Language: ru-RU,ru;q=0.8,en-US;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
X-Requested-With: XMLHttpRequest
Content-Type: application/x-www-form-urlencoded; charset=utf-8
Referer: http://auto.ria.com/search/?ta... currency=1
Content-Length: 989
Cookie: CCC=222%3A10%3A10; lang_code=ru; newdesign=1; last_auto_actual=true; last_auto_id=12750506; last_news_actual=true; last_news_id=211432; _ym_visorc=b; __utma=79960839.430710186.1389123389.138 9123389.1389123389.1; __utmb=79960839.39.6.1389125282232; __utmz=79960839.1389123389.1.1.utmcsr=ya ndex|utmccn=(organic)|utmcmd=organic; __utma=79960839.430710186.1389123389.138 9123389.1389123389.1; __utmz=79960839.1389123389.1.1.utmcsr=ya ndex|utmccn=(organic)|utmcmd=organic; siteSettings=%7B%22currBoxShort%22%3A%5B false%5D%7D; ui=fa4e3d01aa8038e; PHPSESSID=l86c3hpf4srfocqsevu7lbnap6; __utmc=79960839; view_type=tabs1
Connection: keep-alive
Pragma: no-cache
Cache-Control: no-cache
data[expires]=1389127417&data[data][0][query_str]=countpage%3D10%26category_id%3D1%26s_ye rs%3D1987%26state%3D14%26price_ot%3D1000 %26price_do%3D1500%26currency%3D1%26powe r_name%3D1%26fuelRatesType%3Dcity%26matc hed_country%3D-1%26lang_id%3D2%26state_id%3D14%26state_ from%3D14&data[data][0][name]=%D0%97%D0%B0%D0%BF%D0%BE%D1%80%D0%BE%D0 %B6%D1%81%D0%BA%D0%B0%D1%8F%3A%20%D0%9F% D0%BE%D0%B8%D1%81%D0%BA%20%D0%B0%D0%B2%D 1%82%D0%BE&data[data][0][date]=2014-1-7&data[data][0][is_new]=1&data[data][1][query_str]=countpage%3D10%26category_id%3D1%26s_ye rs%3D1987%26state%3D14%26price_ot%3D1000 %26price_do%3D1500%26currency%3D1%26powe r_name%3D1%26fuelRatesType%3Dcity%26with _photo%3D1%26matched_country%3D-1%26lang_id%3D2%26state_id%3D14%26state_ from%3D14&data[data][1][name]=%D0%97%D0%B0%D0%BF%D0%BE%D1%80%D0%BE%D0 %B6%D1%81%D0%BA%D0%B0%D1%8F%3A%20%D0%9F% D0%BE%D0%B8%D1%81%D0%BA%20%D0%B0%D0%B2%D 1%82%D0%BE&data[data][1][date]=2014-1-7&data[data][1][is_new]=0&data[client_id]=262464464&data[is_web_id]=1
HTTP/1.1 200 OK
Server: nginx
Date: Tue, 07 Jan 2014 20:08:29 GMT
Content-Type: text/html; charset=utf-8
Transfer-Encoding: chunked
Connection: keep-alive
X-Powered-By: PHP/5.4.16
Vary: Accept
Expires: Mon, 26 Jul 1997 05:00:00 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Content-Encoding: gzip

Дальше пробую их отправить через curl, а в ответ страница грузиться, но увы без каталога((
Не могли бы вы поделиться кодом.
0 / 0 / 0
Регистрация: 12.03.2015
Сообщений: 1
12.03.2015, 17:47
Добрый вечер, уважаемые форумчане. Прекрасно понимаю, что я не первый, кто задает подобный вопрос, но я уже третий день бьюсь над проблемой, и не могу найти решение.
Суть такова:
Есть сайты:
tourvisor.ru, sletat.ru


Есть поиск по сайтам URL

http://tourvisor.ru/search.php... odes=24921

http://sletat.ru/?callback=sea... s=Y&meals=

На странице результатов поиска есть блок, который я хочу спарсить.
Скажите, что использовать, что бы получить данные из этого блока? Я не прошу решить за меня эту задачу (хотя это бы был идеальный вариант ), а прошу указать в какую сторону копать. Можно ли это сделать при помощи cUrl ? Можно ли это сделать вообще?
Буду благодарен за любую информацию\помощь\подсказки.
0
1 / 1 / 0
Регистрация: 26.09.2015
Сообщений: 2
26.09.2015, 20:15
Если вопрос еще актуален пишите на west_mail1@mail.ru
1
0 / 0 / 0
Регистрация: 24.04.2015
Сообщений: 13
12.07.2016, 13:26
Добрый день.
У меня вопрос знатокам PhpQuery. Полагаю, не нужно создавать новую тему.

Парсил страницу http://www.101empresas.com/categorias в поисках класса btn-primary.
И код
PHP
1
2
3
4
5
6
7
$pageText =new Curl();  
$page=$pageText->get_page(URL.'/categorias');   // для http://www.101empresas.com/categorias
 
$page = substr($page, strpos($page, "<!DOCTYPE"));  //убираю ошибку в странице - xml version="1.0" в заголовке
$page = phpQuery::newDocument($page);
$paginator = $page->find('.btn-primary');
var_dump(" paginator - ".$paginator);
И ничего!
Может быть, страница генерируется на JS?
Ладно, сохранил страницу на диске, убедился, что нужные кнопки есть, затем загрузил ее с диска и провел новый поиск.
И ничего!
Сохранил только кусок страницы с нужными кнопками, затем загрузил ее с диска и провел новый поиск - и получилось!
Так что задачу я выполнил, но, похоже, что-то в PhpQuery я крупно не понимаю.
Может кто-нибудь растолковать?
Да и парсить крупный сайт, каждый раз сохраняя страницу на диске, как-то некрасиво.
Заранее спасибо.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
12.07.2016, 13:26
Помогаю со студенческими работами здесь

Простой парсер страницы
господа, помогите с кодом парсера. есть страница http://kanevskayatv.ru/10kanal/ мне надо написать парсер, котрый выведет эту страницу...

Парсер с php страницы
Имеется вот такая php страничка http://betcityru.com/live/results.php Мне нужно брать с этой страницы всё, кроме кнопок меню и кнопки...

[PHP парсер] Вытащить таблицу, (другие данные) со страницы
Здравствуйте! Тема парсеров, как phpшных, так и разных других уже избита, информации полный интернет, но у меня не получается:( Цель:...

Парсер HTML-страницы после выполнения JS
всем привет... мне нужно парсить html страницу. Конечно вы скажете что тут сложного. Можно например так: HttpWebRequest myRequest =...

Состояние ячейки после отработки BeforeDoubleClick
Использую Worksheet_BeforeDoubleClick, чтобы превратить ячейку в своеобразный переключатель. Двойной клик на ячейке - вставляется в неё...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
13
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru