Форум программистов, компьютерный форум, киберфорум
PHP
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.87/15: Рейтинг темы: голосов - 15, средняя оценка - 4.87
1 / 1 / 1
Регистрация: 23.06.2015
Сообщений: 17

Google parser

27.06.2016, 22:40. Показов 3117. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый вечер, читателям форума. Оцените "простой" парсер гугла, скажите, что улучшить, что добавить, может есть альтернативные способы.
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
header('Content-type: text/html; charset=windows-1251');
$url = "https://www.google.com.ua/search?q=php&num=25"; 
$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL,$url); 
curl_setopt($ch, CURLOPT_USERAGENT, ""); 
curl_setopt($ch, CURLOPT_FAILONERROR, 1); 
curl_setopt($ch, CURLOPT_HEADER, 0); 
curl_setopt($ch, CURLOPT_REFERER, "http://www.google.com.ua/"); 
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); 
curl_setopt($ch, CURLOPT_TIMEOUT, 30); 
curl_setopt($ch, CURLOPT_POST, 0); 
 
$data_url = curl_exec($ch); 
 
preg_match_all('/<h3 class="r"><a href="\/url\?q=(.+?)&amp/is', urldecode($data_url), $matches_url); 
preg_match_all('/<h3 class="r">(<a href="\/url.+?)<\/h3>/is', $data_url, $matches_title); 
preg_match_all('/<span class="st">(.+?)<\/span><br>/is',$data_url, $matches_description); 
 
function getArray($matches){
    return array_slice(explode("[separator]", strip_tags(implode("[separator]",$matches))),0, 20); 
}
 
$url_array = $matches_url[1]; 
 
$final_array['titles'] = getArray($matches_title[0]);
$final_array['descriptions'] = getArray($matches_description[0]); 
$final_array['urls'] = array_slice($url_array, 0 ,20);
Со своей задачей справляется, надо 20 первых результатов, но вот качество меня смущает)
Заранее благодарен.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
27.06.2016, 22:40
Ответы с готовыми решениями:

Json parser
Как преобразовать следующий json { &quot;directions&quot;: { &quot;A&quot;: { &quot;name&quot;: &quot;Виталий&quot;, &quot;email&quot;:...

Php parser M3U
Здравствуйте друзя я хочу создать такой сайт https://canlitv.plus . мне нужен парсер или такой скрипт. можете помочь.

Yandex wordstat parser
Всем привет! Пишу парсер yandex wordstat. Сначала работал без прокси, но после нескольких попыток, как я понял, яндекс меня забанил....

5
Автор FAQ
 Аватар для insideone
3687 / 964 / 114
Регистрация: 10.01.2010
Сообщений: 2,550
28.06.2016, 13:25
Вполне нормально.

Для качества можете освоить скажем Goutte (https://github.com/FriendsOfPHP/Goutte)
Запрос вернёт парсер DowCrawler который без заморочных регулярок может получить результат (http://symfony.com/doc/current... awler.html)
1
1 / 1 / 1
Регистрация: 23.06.2015
Сообщений: 17
28.06.2016, 13:31  [ТС]
Цитата Сообщение от insideone Посмотреть сообщение
Вполне нормально.
Спасибо за ответ. Скажите еще пожалуйста, а в плане производительности, если сначала explode весь $data_url по определенному классу, и дальше прогнать через foreach в поисках нужного контента?
0
Автор FAQ
 Аватар для insideone
3687 / 964 / 114
Регистрация: 10.01.2010
Сообщений: 2,550
28.06.2016, 13:35
Очевидно затраты по памяти будут больше, но для разбора небольших страниц это несущественно. Тем не менее такой вариант не очень красив, т.к. неочевиден. По мне так лучше если код будет удобно-читаем, чем если будет на 10% быстрее работать
0
1 / 1 / 1
Регистрация: 23.06.2015
Сообщений: 17
28.06.2016, 13:38  [ТС]
Цитата Сообщение от insideone Посмотреть сообщение
Очевидно затраты по памяти будут больше, но для разбора небольших страниц это несущественно. Тем не менее такой вариант не очень красив, т.к. неочевиден. По мне так лучше если код будет удобно-читаем, чем если будет на 10% быстрее работать
И последний вопрос, можно как-то бороться при помощи url с выдачей ссылок новостей, и картинок, в основном извращения в регулярке из за них, поскольку мне они не нужны.
0
Автор FAQ
 Аватар для insideone
3687 / 964 / 114
Регистрация: 10.01.2010
Сообщений: 2,550
29.06.2016, 10:27
Вопрос не понял. Чтобы не было извращений в регулярках, можно просто их не использовать. См. Goutte
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
29.06.2016, 10:27
Помогаю со студенческими работами здесь

Php simple html dom parser
Здравствуйте, дорогие форумчане. Начинаю изучать библиотеку парсинга php simple html dom parser. Возникло несколько вопросов. Вот...

Библиотека Simple DOM Parser - парсинг
Добрый день. ЕСть страница 4.php: &lt;div id=&quot;d1&quot;&gt;text-1&lt;/div&gt; &lt;div class=&quot;d2&quot;&gt;text-2&lt;/div&gt; &lt;div id=&quot;glob-1&quot;&gt; ...

PHP Simple HTML DOM Parser
Не подключается библиотека, на страничке написал 1 строчку с подключением include 'simple_html_dom.php'; запускаю и выдает ерор Parse...

Проблемка с PHP Simple HTML DOM Parser. Парсит, не останавливается на конце тега + кодировка
Собственно проблема, даже две :) 1) Есть кусок кода: .... $com = ' '; // еще один буфер foreach($elements as $element)...

Parser PHP
Всем привет, возникла не большая проблема, никак не могу спарсить значение. &lt;div class=&quot;chart__price&quot;&gt; &lt;span...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Работа со звуком через SDL3_mixer
8Observer8 08.02.2026
Содержание блога Пошагово создадим проект для загрузки звукового файла и воспроизведения звука с помощью библиотеки SDL3_mixer. Звук будет воспроизводиться по клику мышки по холсту на Desktop и по. . .
SDL3 для Web (WebAssembly): Основы отладки веб-приложений на SDL3 по USB и Wi-Fi, запущенных в браузере мобильных устройств
8Observer8 07.02.2026
Содержание блога Браузер Chrome имеет средства для отладки мобильных веб-приложений по USB. В этой пошаговой инструкции ограничимся работой с консолью. Вывод в консоль - это часть процесса. . .
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru