Форум программистов, компьютерный форум, киберфорум
PHP: RegExp
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.52/21: Рейтинг темы: голосов - 21, средняя оценка - 4.52
148 / 4 / 0
Регистрация: 19.02.2013
Сообщений: 369

Парсер всех ссылок сайта

05.10.2016, 15:47. Показов 4349. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте, нужен парсер всех существующих ссылок сайта(которые именно к нему относятся)(находил программы, но это шлак, если на сайте более 200000 страниц то это на несколько дней....)
В данном коде, он выводит только ссылки с главной страницы, абсолютно все ссылки, такие как "http://friendfeed.com/ , javascript:; и тд.", они мне не нужны, нужны только ссылки данного домена бывают попадается в список ссылки такого типа /kadidati_v_prop т.е. без домена вообще, но если подставить домен то видно что это ссылка рабочая.
ну и сохранить их все в тхт.
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
<?php 
 
$i = "";
 
echo "<pre>";
 
$Lnk="http://hamaha.net/";
$buf=implode("",file($Lnk)); 
 
preg_match_all
("/<[Aa][ \r\n\t]{1}[^>]*[Hh][Rr][Ee][Ff][^=]*=[ '\"\n\r\t]*([^ \"'>\r\n\t#]+)[^>]*>/",
$buf,$url);
 
   while($i<count($url[1])) 
   { 
   
   echo @$url[1][$i++]."\n"; 
    $f = fopen("alllinks.txt", "a");
 
    fwrite($f, @$url[1][$i++]."\r\n"); 
 
    fclose($f);
   
   }
 
   echo "</pre>"; 
?>
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
05.10.2016, 15:47
Ответы с готовыми решениями:

Парсер ajax данных с сайта
Народ помогите пишу парсер некоторых данных с сайта, использую curl и фрэймворк simple dom php. Суть в том, что на сайте с которого я парсю...

Перенос сайта с ModX на более свежую, на тот же домен с сохранением всех ссылок(чтобы позиции в поисковиках не упали)
Есть сайт на ModX с довольно простой структурой - слева, справа и сверху меню, контент по центру и снизу(надо подвалом). Сайт долго...

Парсер данных с сайта
Нужна помощь в реализации задачи. Задача такая: Есть сайт, назовем его: site.com 1. Методом post/get пройти авторизацию на странице...

2
wq
85 / 78 / 32
Регистрация: 26.11.2015
Сообщений: 481
05.10.2016, 17:01
чё за лажа? если взялись за регулярки то там есть игнор регистра букф. не нужно позориться
0
148 / 4 / 0
Регистрация: 19.02.2013
Сообщений: 369
05.10.2016, 17:08  [ТС]
весь код скопирован с сайтов, я ничего не писал =)
я лишь добавил добавление ссылок в файл.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
05.10.2016, 17:08
Помогаю со студенческими работами здесь

Парсер данных с сайта
шалом, помогите написать простой парсер данных с сайта oddsportal.com мне надо собрать базу коэффициентов предстоящих матчей топ...

Парсер для документа с сайта
Добрый день! Возможно ли получить необходимую информацию из документа (вордовский документ), который расположен на сайте? Необходимо...

Парсер ссылок сайта - ошибка 404
{ WebClient client = new WebClient(); Stream stream = client.OpenRead(textBox1.Text); ...

Парсер сайта и ссылок с сайта
Добрый день. Подскажите, как реализовать парсер сайта, с которого парсятся все URL и в свою очередь, с них парсятся еще URL?(содержимое...

Парсер внешних ссылок по страницам сайта на JAVA - как сделать правильно?
Здравствуйте уважаемые Java разработчики. Столкнулся со следующей задачей - Необходимо написать код сервиса. Сервис определяет...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru