Форум программистов, компьютерный форум, киберфорум
PHP для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.85/39: Рейтинг темы: голосов - 39, средняя оценка - 4.85
156 / 20 / 5
Регистрация: 21.02.2009
Сообщений: 2,787

Как сделать поисковый робот?

24.02.2015, 20:33. Показов 8259. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Нужно сделать скрипт, который будет просматривать страницы в одном клике от главной.

Казалось бы, это несложно - взять код главной и найти в нем все ссылки, а потом открыть страницы по этим ссылкам. Но когда я посмотрел реальные сайты, то мой энтузиазм сильно поубавился, ибо там такое разнообразие исполнения меню, что с ума сойти можно!

Некоторые ссылки идут от корня, другие имеют полный адрес, а третьи через стили и списки запутаны так, что и вручную не разберешься, где вообще здесь ссылки, не говоря уже про их анкоры!

Но ведь Яндекс же это как-то делает!

Может быть, есть какой-то прием, или специальная функция, или еще что-то отработанное, что позволяет найти на странице все ссылки и их анкоры?
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
24.02.2015, 20:33
Ответы с готовыми решениями:

Поисковый робот и раскрывающиеся списки.
На сайте есть раскрывающийся список но я заметил что эти страницы в индекс поисковика не попадают. Я их добавил в sitemap но результата...

Будет ли поисковый робот индексировать контент, который подгружается из БД?
Написал для тренировки блог, в котором все посты подгружаются из БД, будет ли поисковый робот читать и индексировать всю эту инфу?

Как написать свой робот отправки мыла юзерам?
как написать свой робот отправки мыла юзерам, не зная параметры сети или сетей, и после отправки получать уведомление дошло или не дошло,...

5
21 / 21 / 16
Регистрация: 30.09.2013
Сообщений: 262
24.02.2015, 23:02
vlad-55,

Не по теме:

а оно вам надо?



Вообще это сложный проект, и дело рук не двух программистов. Представьте только что придется обрабатывать не просто все виды ссылок, но и написать искусственный интеллект который будет способен в кратчайшие сроки выдать результат не просто по наибольшему количеству совпадений ключевых слов, но и синтаксически подходящую страницу. При том что каждый сайт, но говоря уже о каждой странице этого сайта, создается отдельным автором и имеет собственный стиль написания, и не все знают про правила заголовков h1, h2 ... h6. Да и вообще мало что знают про поисковую оптимизацию.

Моя рекомендация: если нет знаний в сайтостроительстве - первым делом научитесь их создавать с нуля а затем на фреймворках с использованием ООП. Если есть знания - создайте сайт, заполните 50 страниц, и сделайте для этого сайта поиск по страницам. Думаю однообразность ссылок и страниц даст вполне реальную возможность ощутить свои силы и набраться опыта. А дальше как пойдет, всё зависит от Вас.
1
171 / 153 / 67
Регистрация: 11.02.2015
Сообщений: 450
24.02.2015, 23:42
Если проблема только в поиске ссылок, то это не сложно. Другое дело - обработка данных.
1
156 / 20 / 5
Регистрация: 21.02.2009
Сообщений: 2,787
24.02.2015, 23:56  [ТС]
Цитата Сообщение от nrobert Посмотреть сообщение
Если проблема только в поиске ссылок, то это не сложно. Другое дело - обработка данных.
Пока только о поиске ссылок речь. Что-то конкретное можете посоветовать?

(По обработке есть идея, ради которой, собственно, все и затеяно, но об этом потом).
0
91 / 91 / 13
Регистрация: 14.07.2012
Сообщений: 539
25.02.2015, 02:57
Лучший ответ Сообщение было отмечено vlad-55 как решение

Решение

Цитата Сообщение от vlad-55 Посмотреть сообщение
Что-то конкретное можете посоветовать?
начните с поиска по форуму. К примеру слов "парсинг" и "simple html dom".
1
156 / 20 / 5
Регистрация: 21.02.2009
Сообщений: 2,787
25.02.2015, 10:17  [ТС]
Спасибо, это замечательная наводка! Там море информации, о которой я и не подозревал!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
25.02.2015, 10:17
Помогаю со студенческими работами здесь

Поисковый робот
С наступающим!:-) Ребят. Нужен небольшой теоретический совет. Приведу небольшую аналогию. При поиске каких-либо данных в интернете, мы...

Поисковый робот
Здравствуйте. Нужно написать робота, только я полный ноль в этой теме. Какая именно задача? Есть текстовый документ, в котором будет...

Поисковый робот
Здравствуйте. Пробую написать робота для поиска нужного текста на сайте. Есть кое-что не понятно в алгоритме но надеюсь поправите. ...

Поисковый робот зашел ко мне
Привет! Посмотрите на вот сюда :D http://www.u-ss.ru/sebotinfo.php там показано какие боты и когда ко мне приходили. Что я...

Чему обучен поисковый робот
Уважаемые интернет-деятели! Давайте поговорим о возможностях поисковика читать. Лично меня интерисует умеют ли поисковики читать css?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru