Форум программистов, компьютерный форум, киберфорум
Наши страницы
PHP: RegExp
Войти
Регистрация
Восстановить пароль
 
Рейтинг 4.78/9: Рейтинг темы: голосов - 9, средняя оценка - 4.78
DarkJoker1992
148 / 4 / 0
Регистрация: 19.02.2013
Сообщений: 369
1

Парсер всех ссылок сайта

05.10.2016, 15:47. Просмотров 1685. Ответов 2
Метки нет (Все метки)

Здравствуйте, нужен парсер всех существующих ссылок сайта(которые именно к нему относятся)(находил программы, но это шлак, если на сайте более 200000 страниц то это на несколько дней....)
В данном коде, он выводит только ссылки с главной страницы, абсолютно все ссылки, такие как "http://friendfeed.com/ , javascript:; и тд.", они мне не нужны, нужны только ссылки данного домена бывают попадается в список ссылки такого типа /kadidati_v_prop т.е. без домена вообще, но если подставить домен то видно что это ссылка рабочая.
ну и сохранить их все в тхт.
PHP
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
<?php 
 
$i = "";
 
echo "<pre>";
 
$Lnk="http://hamaha.net/";
$buf=implode("",file($Lnk)); 
 
preg_match_all
("/<[Aa][ \r\n\t]{1}[^>]*[Hh][Rr][Ee][Ff][^=]*=[ '\"\n\r\t]*([^ \"'>\r\n\t#]+)[^>]*>/",
$buf,$url);
 
   while($i<count($url[1])) 
   { 
   
   echo @$url[1][$i++]."\n"; 
    $f = fopen("alllinks.txt", "a");
 
    fwrite($f, @$url[1][$i++]."\r\n"); 
 
    fclose($f);
   
   }
 
   echo "</pre>"; 
?>
0
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
05.10.2016, 15:47
Ответы с готовыми решениями:

Перенос сайта с ModX на более свежую, на тот же домен с сохранением всех ссылок(чтобы позиции в поисковиках не упали)
Есть сайт на ModX с довольно простой структурой - слева, справа и сверху меню, контент по центру и...

Парсер данных с сайта
шалом, помогите написать простой парсер данных с сайта oddsportal.com мне надо собрать базу...

Парсер данных с сайта
Нужна помощь в реализации задачи. Задача такая: Есть сайт, назовем его: site.com 1. Методом...

Парсер для документа с сайта
Добрый день! Возможно ли получить необходимую информацию из документа (вордовский документ),...

Парсер ajax данных с сайта
Народ помогите пишу парсер некоторых данных с сайта, использую curl и фрэймворк simple dom php....

2
wq
85 / 78 / 32
Регистрация: 26.11.2015
Сообщений: 481
05.10.2016, 17:01 2
чё за лажа? если взялись за регулярки то там есть игнор регистра букф. не нужно позориться
0
DarkJoker1992
148 / 4 / 0
Регистрация: 19.02.2013
Сообщений: 369
05.10.2016, 17:08  [ТС] 3
весь код скопирован с сайтов, я ничего не писал =)
я лишь добавил добавление ссылок в файл.
0
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
05.10.2016, 17:08

Поиск всех ссылок на странице
Добрый день всем. Необходимо регулярное выражение для поиска всех ссылок на странице.

Поиск всех ссылок в файле
есть вот такой код поиска ссылки $url = file_get_contents(&quot;moduls/sitemap/xxx.txt&quot;); ...

Вытаскивание всех ссылок со страницы
Здравствуйте, не получается вытащить все ссылки вот с этой страницы...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2019, vBulletin Solutions, Inc.
Рейтинг@Mail.ru