Форум программистов, компьютерный форум, киберфорум
PHP
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.50/6: Рейтинг темы: голосов - 6, средняя оценка - 4.50
0 / 0 / 1
Регистрация: 23.09.2016
Сообщений: 51

Криво работает RollingCurl

28.08.2018, 21:20. Показов 1289. Ответов 9
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
привет, народ!
Есть проблема конкретно с RollingCurl, в гугле нет ничего такого, на форуме не нашел тоже, поэтому решил спросить, может кто поможет разобраться.

есть массив $array, в котором где-то 60 тысяч ссылок, с которых надо получить html.
есть вот эта библиотека RollingCurl - https://github.com/chuyskywalker/rolling-curl

парсю вот таким способом (пример взят оттуда же откуда и библиотека):

PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
require_once 'RollingCurl/Request.php';
require_once 'RollingCurl/RollingCurl.php';
 
$rollingCurl = new \RollingCurl\RollingCurl();
 
foreach ($array as $url){
     $rollingCurl->get($url);
        }
 
$results = array();
 
$start = microtime(true);
echo "Fetching..." . PHP_EOL;
$rollingCurl
    ->setSimultaneousLimit(10)
    ->execute();
;
echo "...done in " . (microtime(true) - $start) . PHP_EOL;
 
foreach ($rollingCurl->getCompletedRequests() as $request) {
    if (preg_match_all('#<h3 class="r"><a href="([^"]+)">(.*)</a></h3>#iU', $request->getResponseText(), $out)) {
        foreach ($out[1] as $idx => $url) {
            parse_str(parse_url($url, PHP_URL_QUERY), $params);
            $results[$params['q']] = strip_tags($out[2][$idx]);
        }
    }
    echo "Processsed (" . $request->getUrl() . ")" . PHP_EOL;
}
 
echo "All results: " . PHP_EOL;
print_r($results);
засовываю всё это в вордпресс и тут начинаются странности.
проблема в том, что он парсит только 778 ссылок. Даже если одну добавлю - нет результата. Помогите разобраться в чем может быть дело?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
28.08.2018, 21:20
Ответы с готовыми решениями:

Оверлеи и всякие pop-up окна не дают получить HTML через file_get_content или RollingCurl
Привет, люди! Вопрос по PHP. Есть сайты, с которых нужно получить HTML-код. В принципе file_get_content или RollingCurl получают. Но...

Криво работает форма с капчей
Доброе время суток ! Народ помогите пожалуйста дорихтовать форму с капчей . Вобщем прикрутил капчу на форму обратной связи Капча на...

Криво работает код обработки текста
Здравствуйте, я недавно написал программу удаляющую полностью все javascript из исходного кода, но почемуто программа сносит весь html, что...

9
 Аватар для otto-fukin
14 / 60 / 21
Регистрация: 15.06.2017
Сообщений: 572
28.08.2018, 21:46
Цитата Сообщение от coolio Посмотреть сообщение
$rollingCurl->getCompletedRequests()
С чего в решили что все запросы были выполнены? В этом и дело

Добавлено через 1 минуту
не задумывались сколько времени будет выполнятся чтение 60000 страниц?
0
0 / 0 / 1
Регистрация: 23.09.2016
Сообщений: 51
29.08.2018, 09:03  [ТС]
otto-fukin, то есть я всего лишь рано смотрю результат?)) или что?

Добавлено через 11 часов 15 минут
otto-fukin, то есть 778 страниц получает за 2 минуты, а уже 779 даже за сутки осилить не может? о 60 000 даже пока и думать не приходится))
0
Эксперт PHP
5755 / 4134 / 1508
Регистрация: 06.01.2011
Сообщений: 11,276
29.08.2018, 09:55
coolio, впечатление, что что-то не то в скрипте. Посмотрите тут о параллельных запросах:
https://rmcreative.ru/blog/post/rolling-curl

Судя по 20 строке и далее, сначала происходит накапливание данных, а потом их обработка. Велика вероятность, что память забивается и процесс умирает.

Добавлено через 1 минуту
И ещё: Вы через консоль запускаете, надеюсь?
0
0 / 0 / 1
Регистрация: 23.09.2016
Сообщений: 51
29.08.2018, 11:14  [ТС]
Para bellum, да, как я понял, накапливает, после того как он их обрабатывает, он их очищает. Может быть он не успевает очищать...

вот эта строка:
PHP
1
->setSimultaneousLimit(10)
тоже влияет, если я уменьшаю или увеличиваю значение, то тоже перестает работать

Добавлено через 3 минуты
Para bellum, кстати, здесь же, в источнике (https://github.com/chuyskywalker/rolling-curl) есть другой пример. Там в примере считываются первые 500 страниц из результата запроса в гугл. Так вот, та же самая строка
PHP
1
->setSimultaneousLimit(10)
не дает считать эти 500 страниц. Если поставить значение 100 то получит только 100 страниц. То есть чтобы все 500 получить надо поставить значение 500. А как я понял это должно быть количество одновременных запросов...
0
 Аватар для otto-fukin
14 / 60 / 21
Регистрация: 15.06.2017
Сообщений: 572
29.08.2018, 19:20
Цитата Сообщение от coolio Посмотреть сообщение
то есть 778 страниц получает за 2 минуты
с чего вы взяли что получает. За 778 запросов к разным страницам за 2 минуты, любой ресурс, который делал программист начального уровня, вывалит вам 778 штук туфты. А потом его ваши потуги уже можеть и задолбают..
0
0 / 0 / 1
Регистрация: 23.09.2016
Сообщений: 51
30.08.2018, 07:34  [ТС]
otto-fukin, результат же в базу записывается. То есть вот так происходит: когда в массиве всего 778 страниц - то всё норм, в базе оказываются все. Как только добавляю еще одну - база пустая

Добавлено через 1 час 17 минут
и вот еще какая штука - когда я запускаю у себя на компе - всё норм работает, всё получает. А когда закидываю на сервер на хостинге, в вордпресс - вот тогда это всё и начинается
0
0 / 0 / 1
Регистрация: 23.09.2016
Сообщений: 51
01.09.2018, 10:28  [ТС]
нашел в другом примере еще такие две строчки:
PHP
1
2
3
// Clear list of completed requests and prune pending request queue to avoid memory growth
        $rollingCurl->clearCompleted();
        $rollingCurl->prunePendingRequestQueue();
можно ли их здесь применить где-то?
0
 Аватар для otto-fukin
14 / 60 / 21
Регистрация: 15.06.2017
Сообщений: 572
02.09.2018, 17:28
Цитата Сообщение от coolio Посмотреть сообщение
результат же в базу записывается
если мой сайт с одного ip чел будет по 380 раз в спрашивать минуту, я с радостью накормлю его дезой уже после десятого запроса за первую минуту. И он будет думать что все в порядке. Но когда-то это нужно будет прекращать? И на третьей минуте наступит у человека полный облом.
Плюс вашему хостеру так-же может не понравиться такая ваша внешняя активность.
0
0 / 0 / 1
Регистрация: 23.09.2016
Сообщений: 51
05.09.2018, 14:18  [ТС]
otto-fukin, ну, то, что не деза - это 100% - то есть я же вижу, что он получает именно то, что нужно. Сайт там не один, их 60 к каждому всего по 10-13 запросов успевает сделать, причем, внутри класса RollingCurl вроде бы максимальное количество одновременных запросов - 5.
Когда к тем же сайтам со своего компа запускаю скрипт - он получает всё, абсолютно всё, всё работает, только дольше. А вот насчет хостера - вот здесь это действительно может быть так и есть, спасибо за мысль
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
05.09.2018, 14:18
Помогаю со студенческими работами здесь

Почему криво работает sql запрос show databases?
Здравствуйте, подскажите пожалуйста, почему код: $db = @mysql_connect(&quot;$server&quot;,&quot;$nick&quot;,&quot;$password&quot;); $sql =...

Криво работает форма отправки сообщения
Есть следующий код для отправки сообщений: if(isset($_POST)){ if(isset($_SESSION) &amp;&amp; $_SESSION === $_POST){ ...

Криво работает
У меня задание &quot;Создать триггер. Нужно, чтобы при изменении столбца ПРЕМИЯ, у меня столбец ИТОГО пересчитывался по формуле ...

Криво работает do while
Есть рабочий код на паскале, var a, k, s, b, x1, x2, y1, y2, h: real; n, j: integer; begin a := -1; b := 1; n :=...

Криво работает youtube.ru
в мозиле криво работает ютуб, отображается так, как будто запрещены все скрипты и нету css, т.е. гольный текст в столбик. а в других...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Новые блоги и статьи
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
влияние грибов на сукцессию
anaschu 26.01.2026
Бифуркационные изменения массы гриба происходят тогда, когда мы уменьшаем массу компоста в 10 раз, а скорость прироста биомассы уменьшаем в три раза. Скорость прироста биомассы может уменьшаться за. . .
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip" Извлеките архив и вы увидите. . .
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д. Сборка примера Скачайте. . .
Использование SDL3-callbacks вместо функции main() на Android, Desktop и WebAssembly
8Observer8 24.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru