Форум программистов, компьютерный форум, киберфорум
PHP для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.93/30: Рейтинг темы: голосов - 30, средняя оценка - 4.93
 Аватар для Nebiros
41 / 40 / 16
Регистрация: 23.03.2010
Сообщений: 3,122

сканирование сайта

08.06.2011, 13:17. Показов 5727. Ответов 8
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
задумка не нова и конечно такое есть но хочется знать как это сделать наиболее эффективным скриптом , суть такова - нужно чтобы скрипт вычислял все возможные страницы на определенном сайте и потом записывал в две колонки - 1. линки на его страницы и 2. линки на внешние ресурсы...
В основном нужно узнать как получить все линки что находятся на сайте...

P.s. - я думаю в этом ничего незаконного нет ...
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
08.06.2011, 13:17
Ответы с готовыми решениями:

Сканирование кода сайта
Здравствуйте. Я ооооочень начинающий в программировании на PHP, но мне очень нужна весьма сложная функция. Необходимо выполнить проверку...

Не получается сделать сканирование сайта
Всем привет Есть такая задача не понимаю как ее сделать Нужно написать скрипт, который может просканировать любой сайт на наличие...

Сканирование подкаталогов
Доброго дня. Имеется следующий код: <?php $dir = 'assets/images/'; // Папка с изображениями $files = scandir($dir); ...

8
 Аватар для solar_wind
770 / 760 / 59
Регистрация: 06.07.2009
Сообщений: 3,021
08.06.2011, 13:25
Nebiros, Обращаешься к сайту, тебе приходит код страницы, находишь на странице все href и составляешь список ссылок, далее заходишь в каждую из ссылок и повторяешь то же самое. В итоге получаешь дерево страниц. Главное предусмотреть защиту от зацикливания.

Нет, это вполне законно, исходный код сайта ты все равно так не получишь.
1
 Аватар для Nebiros
41 / 40 / 16
Регистрация: 23.03.2010
Сообщений: 3,122
08.06.2011, 13:41  [ТС]
vitaly1981 я нашел такой способ

PHP
1
2
3
4
5
6
7
 flush();
    $ch = curl_init ();
    curl_setopt ($ch , CURLOPT_URL , $matches[2][$i]);
    curl_setopt ($ch , CURLOPT_USERAGENT , "Mozilla/5.0 (Windows; U; Windows NT 5.1; ru-RU; rv:1.7.12) Gecko/20050919 Firefox/1.0.7");
    curl_setopt ($ch , CURLOPT_RETURNTRANSFER , 1 );
    $content = curl_exec($ch);
    curl_close($ch);
это кусок кода но суть не в этом , для того чтобы он работал нужно установить библиотеку но чтото у меня неполучается. Можно это сделать без библиотеки?
0
 Аватар для solar_wind
770 / 760 / 59
Регистрация: 06.07.2009
Сообщений: 3,021
08.06.2011, 13:50
попробуй использовать
$source=file_get_contents($url);
1
239 / 236 / 43
Регистрация: 16.03.2011
Сообщений: 750
08.06.2011, 20:08
перебор всех возможных вариантов ссылок на предмет доступности страницы можно использовать туже file_get_contents, сканировать можно по словарю либо перебрать все возможные варианты пример:
a1.
a2..
b1..
b2..
так можно узнать страницы на которых нет ссылки например на админку или папку с паролями..
0
 Аватар для Nebiros
41 / 40 / 16
Регистрация: 23.03.2010
Сообщений: 3,122
08.06.2011, 20:17  [ТС]
Цитата Сообщение от r36 Посмотреть сообщение
перебор всех возможных вариантов ссылок на предмет доступности страницы можно использовать туже file_get_contents, сканировать можно по словарю либо перебрать все возможные варианты пример:
a1.
a2..
b1..
b2..
так можно узнать страницы на которых нет ссылки например на админку или папку с паролями..
на это очень много времени уйдет...


Цитата Сообщение от vitaly1981 Посмотреть сообщение
попробуй использовать
$source=file_get_contents($url);
да узнать все ссылки на данной странице с этим я разобрался , но как все линки на сайте узнать , если каждый из полученых линков и смотреть все линки на нем и тд то это опять же займет много времени да и скрипт до конца не выполнится...

для маленьких сайтов где 10-20 страниц это не беда а вот если страниц тысячи и нужно получить на них все линки , вот на этом месте я и застрял
0
 Аватар для solar_wind
770 / 760 / 59
Регистрация: 06.07.2009
Сообщений: 3,021
08.06.2011, 20:25
Nebiros, А подругому никак. да и времени не так уж и много займет. только переходя по страницам можно узнать все линки. Перебирать названия это долго, да и зачем, если только ты сайт не хочешь взломать...
0
 Аватар для Nebiros
41 / 40 / 16
Регистрация: 23.03.2010
Сообщений: 3,122
08.06.2011, 20:36  [ТС]
Цитата Сообщение от vitaly1981 Посмотреть сообщение
Nebiros, А подругому никак. да и времени не так уж и много займет. только переходя по страницам можно узнать все линки. Перебирать названия это долго, да и зачем, если только ты сайт не хочешь взломать...
есть один скрипт который бегает по линкам и парсит весь текст на страницах , так вот я думал будет лучше чтобы другой сначала пробегался собирал все линки чтобы первый уже не искал куда ему идти а по заданному списку пробегал , или так дольше будет?

в итоге должен получится скрипт который бегает по линкам и собирает весь текст , потом бегает по внешним линкам этого сайта и тд , но как не кручу времени на это уходит много . Хорошо если есть у сайта сайтмап но такового не у все есть
0
 Аватар для andyarus
175 / 77 / 2
Регистрация: 19.04.2011
Сообщений: 322
09.06.2011, 09:50
у меня есть генератор сайтмап. генеришь им карту сайта, потом прогоняешь по ней твой скрипт. могу сбарыжить. сканирует все страницы, без ограничений. если интересно пиши в личку.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
09.06.2011, 09:50
Помогаю со студенческими работами здесь

Скрипт на сканирование файлов и папок
Здравствуйте. Нашел шаблон с php скриптом который считывает в корне сайта папку files. Сайт лежит у меня по пути /var/www/web/, т.е скрипт...

Сканирование с бумаги в mySQL, используя Apache + php.
Nuzhda takova - skaniorovannije dokumenti zagonjat v bazu. Toestj spisok (tablicu s imenem i familiei s bumagi nado zapehatj v mySQL...

Сканирование сайта
Как заставить поисковых ботов сканировать сайт при обновлении rss ?

Сканирование
Ткните плиз в какую сторону копать. Нужно сканировать бумажные документы и "складывать" их в другую бд. При этом, чтобы...

Сканирование
Здравствуйте! Помогите пожалуйста с задачкой: На форме есть текстбокс, и две кнопки. Одна для выбора папки, другая для сканирования и...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
Использование значений реквизитов справочника в документе, с определенными условиями и правами
Maks 07.04.2026
1. Контроль срока действия договора Алгоритм из решения ниже реализован на примере нетипового документа "ЗаявкаНаРаботу", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если. . .
Доступность команды формы по условию
Maks 07.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: сделать доступной кнопку (команда формы "ЗавершитьСписание") при. . .
Уведомление о неверно выбранном значении справочника
Maks 06.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "НарядПутевка", разработанного в конфигурации КА2. Задача: уведомлять пользователя, если в документе выбран неверный склад. . .
Установка Qt Creator для C и C++: ставим среду, CMake и MinGW без фреймворка Qt
8Observer8 05.04.2026
Среду разработки Qt Creator можно установить без фреймворка Qt. Есть отдельный репозиторий для этой среды: https:/ / github. com/ qt-creator/ qt-creator, где можно скачать установщик, на вкладке Releases:. . .
AkelPad-скрипты, структуры, и немного лирики..
testuser2 05.04.2026
Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .
Отображение реквизитов в документе по условию и контроль их заполнения
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеСпецтехники", разработанного в конфигурации КА2. Данный документ берёт данные из другого нетипового документа. . .
Фото всей Земли с борта корабля Orion миссии Artemis II
kumehtar 04.04.2026
Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .
Вывод диалогового окна перед закрытием, если документ не проведён
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать программный контроль на предмет проведения документа. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru