Форум программистов, компьютерный форум, киберфорум
PHP для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.71/7: Рейтинг темы: голосов - 7, средняя оценка - 4.71
0 / 0 / 0
Регистрация: 26.02.2014
Сообщений: 3

Универсальный обходчик веб страниц (парсинг simple_html_dom)

17.05.2014, 16:41. Показов 1514. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Это тема моей курсовой работы. Задача получить на выходе инструмент, при помощи которого можно будет собирать данные с интересующих нас сайтов. Предполагается что те кто будут использовать инструмент не имеют представления о верстке. Отсюда задача усложняется тем что мы заведомо не знаем(не видим, ну или видим но нам от этого ни тепло, ни холодно) код верстки, а пытаемся найти нужный нам блок или элемент по каким либо ключевым словам (допустим если это курс доллара на странице то указываем такие ключевые слова как [курс,доллар,$] и на первом этапе получаем все блоки или элементы в которых упоминаются данные слова), затем на следующем этапе фильтруем и оставляем только интересующую нас информацию и помещаем ее в БД(работа с sqlite). Далее настроив скрипт запускать его допустим каждый день на протяжении месяца и делаем с имеющимися данными что угодно. Инструмент будет представлять собой 2 файла: сам скрипт и рядом конфигурационный файл с которым и будет работать человек. В нем допустим в 1 строке url интересующей страницы, во второй ключевые слова, в третьей конкретизация того какие элементы нужно оставить для помещения в БД.

При реализации возникла трудность. Работаю с библиотекой simple_html_dom и там по всей видимости не организован поиск по ключевому слову(обращаться по class, id мы не можем, таково ограничение по заданию. можем только по тому что видим на экране в браузере). Подскажите как в полученном html коде страницы организовать таковой поиск и чтобы данная функция возвращала еще и элемент страницы в котором упоминается ключевое слово, для того чтобы затем можно было к ним обратиться для использования допустим plaintext'a. Слышал что можно с использованием jquery, но с ним у меня туго. Интересно выслушать ваши идеи по поводу реализации!
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
17.05.2014, 16:41
Ответы с готовыми решениями:

Парсинг веб страниц
Всем привет! Суть задачи нужен парсер сайта... Скачать страницу с глубиной рекурсии до 5 (максимум.) Цель - дальнейший анализ...

Парсинг веб страниц
не получается парсить веб страницу сайта зннакомств string url = "http://tabor.ru/friends/list.php"; ...

Парсинг simple_html_dom ошибка 403
Добрый день! Имею парсер сайта ДНС на хостинге и на денвере, до некоторого времени все нормально работало с функцией file-get-contents ...

1
65 / 64 / 33
Регистрация: 25.02.2014
Сообщений: 229
19.05.2014, 07:20
Шикарная работа... Только очень сложная
Мне кажется вам нужно копать в эту сторону - http://ru.wikipedia.org/wiki/Data_mining

Будут результаты - пишите. Лично мне эта тема давно интересна, но до реализации (более того, даже до обдумывания) дело на доходит
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
19.05.2014, 07:20
Помогаю со студенческими работами здесь

Парсинг simple_html_dom ошибка 403
Добрый день! Имею парсер сайта ДНС на денвере, до некоторого времени все нормально работало с функцией file-get-contents На данный...

Открытие нескольких веб-страниц, на одной главное веб-странице
Всем доброго времени суток. Перед новым годом, нам всем задали индивидуальные задания, но я сильно заболел а когда вышел с больницы,...

Веб-браузер, парсинг в общем работа с веб-страничками!
Здраствуйте! Вот тут решил попрактиковаться в работе с WebBrowser.. Постановка задачи: Открыл я свой браузер открыл страницу:...

Парсинг PHP simple_html_dom.php
парсю сайт с помощью simple_html_dom.php и вот там встретил такой div <div class="msch_group" multiplex_id="22"> ...

Парсинг страниц!
Добрый день подскажите кто знает как отпарсить правильно данную страничку http://devilscity.combats.com/inf.pl?1133864833, мне нужны ссылки...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru