|
1 / 1 / 0
Регистрация: 16.07.2016
Сообщений: 186
|
|
Парсер ссылок на PHP26.06.2018, 22:15. Показов 7826. Ответов 16
Метки нет (Все метки)
Здравствуйте, форумчане! Есть такой сайт - https://postupi.online/professii/
на нём больше двух тысяч профессий. Как спарсить только заголовки этих профессий? А то вручную копировать >2к ссылок нерельно. Гуглил уже, подобного не нашёл. Чтобы выводился примерно такой список: Big Data Analyst: специалист по анализу больших данных BI разработчик (BI архитектор) BIM-менеджер-проектировщик
0
|
|
| 26.06.2018, 22:15 | |
|
Ответы с готовыми решениями:
16
php парсер Парсер на php PHP парсер |
|
968 / 530 / 244
Регистрация: 20.05.2015
Сообщений: 776
|
||||||
| 27.06.2018, 01:20 | ||||||
Сообщение было отмечено mininvit как решение
Решение
mininvit, вам для собственных нужд?
Время выполнения просто ужасное. Подключаем библиотеку для работы с элементами на странице. После того, как скрипт обошел все страницы и данные в массиве. Сохраняет всё это дело в txt файл.
К примеру, парсим этот сайт ~ раз в несколько часов/дней → сохраняем на сервере JSON, а дальше, отдаем нужные данные пользователю. Еще раз повторюсь, данный скрипт написан ИСКЛЮЧИТЕЛЬНО в ознакомительных целях. Так парсить данные для пользователя НЕЛЬЗЯ. Прикладываю файл с заголовками профессий + исходники:
1
|
||||||
|
968 / 530 / 244
Регистрация: 20.05.2015
Сообщений: 776
|
||||||
| 27.06.2018, 05:03 | ||||||
Сообщение было отмечено mininvit как решение
Решение
Добавлено через 6 минут
UPD: mininvit, Написал более человеческую версию. Без использования подключаемой библиотеки для работы с элементами на странице и с использованием multi Curl. Сейчас выполнение скрипта занимает не так много времени. Скрипт записывает заголовки в файл branches.txt.
1
|
||||||
|
1 / 1 / 0
Регистрация: 16.07.2016
Сообщений: 186
|
|
| 27.06.2018, 13:43 [ТС] | |
|
Охреенеть! Я не знаю, что сказать
Огромное вам СПАСИБО! Я просто себе подбираю профессию, а на этом сайте самое большинство их. Вот я и буду ставить напротив каждой плюс/минус сравнивая преимущества и недостатки. Второй код (который быстрей) у меня почему-то крашнул ошибкой на 25-й строке.Fatal error: Cannot use object of type DOMNodeList as array in C:\OSPanel\domains\mysite.local\index.ph p on line 25 Добавлено через 5 минут evikza, а как, например, выписать все заголовки из конкретного раздела. Допустим, юриспруденция или медицина - https://postupi.online/profess... rudenciya/ Там же уже 194 страницы не нужны, что можно в коде тогда поменять? Добавлено через 1 час 8 минут а всё разобрался сам Добавлено через 18 минут Только почему-то у меня в элементах всего 2211, хотя на самом деле профессий 2331. Почему могут не добавляться? Добавлено через 6 минут Думаю, что-то связано с ограничениями в php.ini. Может максимальный размер файла, объем оперативной памяти выделяемой под скрипт?
0
|
|
|
7 / 7 / 5
Регистрация: 07.06.2018
Сообщений: 117
|
|
| 27.06.2018, 16:00 | |
|
0
|
|
|
1569 / 1448 / 303
Регистрация: 01.10.2011
Сообщений: 2,636
|
|
| 27.06.2018, 16:06 | |
|
winwin22, На нормальных хостингах есть, а бесплатные поддерживать нет смысла
0
|
|
|
7 / 7 / 5
Регистрация: 07.06.2018
Сообщений: 117
|
||
| 27.06.2018, 16:26 | ||
|
инет через мусорорубку пропустят и Бэз рекламы оставят, ![]() Это параноя и плагиаторство.. раздувание пузырей в луже соплей! Лет эдак через 1 000 000 000 000 вы вспомните как запретили КУР! ![]()
0
|
||
|
1 / 1 / 0
Регистрация: 16.07.2016
Сообщений: 186
|
|
| 27.06.2018, 17:28 [ТС] | |
|
Да я всё равно на локальном тестил, он еще раньше крашнулся, чем дойти до multi_curl
Почему? Fatal error: Cannot use object of type DOMNodeList as array in C:\OSPanel\domains\mysite.local\index.ph p on line 25 Добавлено через 9 минут А всё разобрался ![]() getElementsByTagName() возвращает DOMNodeList, который реализует ArrayAccess с PHP 5.6.3 Поставил версию PHP 7.2 всё заработало как надо! Добавлено через 1 минуту evikza, а как извлечь для этого кода из картинки допустим title? Ну допустим такой html код: <img src="/image/fluffybunny.jpg" title="Harvey the bunny" /> Добавлено через 1 минуту evikza, а как извлечь из картинки title? Ну допустим такой html код: <img src="/image/fluffybunny.jpg" title="Harvey the bunny" /> Вместо textplain что вставить нужно?
0
|
|
|
968 / 530 / 244
Регистрация: 20.05.2015
Сообщений: 776
|
|||||||
| 27.06.2018, 17:40 | |||||||
|
mininvit, смотря какая структура элементов. Если уж совсем простой пример:
curl. Позже еще посмотрю, что можно придумать.
1
|
|||||||
|
1 / 1 / 0
Регистрация: 16.07.2016
Сообщений: 186
|
|||||||||||
| 27.06.2018, 18:42 [ТС] | |||||||||||
|
evikza, структура такая:
Может проще из ссылки вытащить заголовок чем из изображения? С ссылками у меня почему-то не получилось Добавлено через 10 минут Вот как я изменил:
Добавлено через 6 минут Вроде в селекторе "article" находится тэг "a". Так и написал. Добавлено через 36 минут
0
|
|||||||||||
|
968 / 530 / 244
Регистрация: 20.05.2015
Сообщений: 776
|
||||||
| 27.06.2018, 21:11 | ||||||
Сообщение было отмечено mininvit как решение
Решение
mininvit,
1
|
||||||
|
1 / 1 / 0
Регистрация: 16.07.2016
Сообщений: 186
|
|
| 27.06.2018, 21:18 [ТС] | |
|
evikza, СПАСИБО! Я думал, как бы добавить data-key. А обязательно нужно все атрибуты указывать у элемента? Или почему тогда с обычным article не работало?
А если бы пришлось с изображения вытаскивать alt, что нужно тогда?
0
|
|
|
968 / 530 / 244
Регистрация: 20.05.2015
Сообщений: 776
|
||||||||||||
| 27.06.2018, 21:44 | ||||||||||||
|
mininvit, нет, не обязательно. Мы возвращаем коллекцию элементов
<article>. Затем, находим все элементы удовлетворяющие нашему условию, а именно:
1
|
||||||||||||
|
1 / 1 / 0
Регистрация: 16.07.2016
Сообщений: 186
|
|
| 27.06.2018, 22:41 [ТС] | |
|
Большое спасибо! Теперь разобрался.
0
|
|
|
1 / 1 / 0
Регистрация: 16.07.2016
Сообщений: 186
|
|||||||||||
| 30.06.2018, 20:38 [ТС] | |||||||||||
|
evikza, Ещё один вопросик) А если надо вывести это допустим в браузер, чтобы они показывались как ссылки в формате:
evikza, может быть надо как то отдельно получить массив с анкором ссылок, и hrefом? А потом что? Надо же их как то через foreach перебрать. Но результат все равно не получается.
0
|
|||||||||||
|
968 / 530 / 244
Регистрация: 20.05.2015
Сообщений: 776
|
||||||
| 01.07.2018, 00:57 | ||||||
|
mininvit, создадим ассоциативным массив и будем записывать в него
title и href. Далее, через foreach перебираем элементы.
1
|
||||||
|
1 / 1 / 0
Регистрация: 16.07.2016
Сообщений: 186
|
|
| 01.07.2018, 10:31 [ТС] | |
|
Аа. Нужно было двумерный массив создавать.
А я создал два разных массива branches[] и branches1[], занёс туда данные, а потом думаю, как бы перебрать через foreach. Ещё раз благодарю!
0
|
|
| 01.07.2018, 10:31 | |
|
Помогаю со студенческими работами здесь
17
php парсер PHP парсер PHP парсер парсер php Парсер php Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога
Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
|
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование
. \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json>
Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом.
# Check if. . .
|
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так:
https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347
Основана на STM32F303RBT6.
На борту пять. . .
|
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
|
|
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу,
и светлой Луне.
В мире
покоя нет
и люди
не могут жить в тишине.
А жить им немного лет.
|
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила»
«Время-Деньги»
«Деньги -Пуля»
|
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога
Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
|
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога
Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
|