Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.82/11: Рейтинг темы: голосов - 11, средняя оценка - 4.82
0 / 0 / 0
Регистрация: 20.07.2014
Сообщений: 13
1

Получение внутренних ссылок из HTML

30.11.2016, 12:26. Показов 1947. Ответов 5
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Здравствуйте. Делаю генерацию карты сайта (по ссылке). И нужно собрать все внутренние ссылки с сайта. Может кто-то знает регулярное выражение или уже какое-то готовое решение для получения именно внутренних ссылок.
Заранее спасибо)
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
30.11.2016, 12:26
Ответы с готовыми решениями:

Парсинг внутренних ссылок
ребят подскажите, как можно осуществить парсинг всех внутренних ссылок?

Парсинг внутренних ссылок
Можно ли как-то определить при парсинге, что ссылка является внутренней, если она выглядит...

Получение ссылок с HTML страницы
Всем доброго времени суток. Если есть загруженная HTML страница на диске, то как с нее можно...

Стоимость ссылок на внутренних?
Имеется небольшое количество внутренних страниц с неплохими показателями: главная: пр 3 ...

5
Администратор
Эксперт .NET
17019 / 13372 / 5217
Регистрация: 17.03.2014
Сообщений: 27,342
Записей в блоге: 1
30.11.2016, 23:58 2
иванзар, я бы не стал использовать регулярные выражения. Лучше взять специализированную библиотеку для работы с HTML - HtmlAgilityPack или AngleSharp. С их помощью выбрать все элементы <a> с атрибутом href. Затем нормализовать каждую ссылку и оставить только те которые которые указывают на текущий сайт.
0
Эксперт С++
8385 / 6147 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
01.12.2016, 00:31 3
Цитата Сообщение от OwenGlendower Посмотреть сообщение
Лучше взять специализированную библиотеку для работы с HTML
Чем лучше?
0
Администратор
Эксперт .NET
17019 / 13372 / 5217
Регистрация: 17.03.2014
Сообщений: 27,342
Записей в блоге: 1
01.12.2016, 00:50 4
Avazart, тем что HTML не имеет регулярной структуры и поэтому его тяжело парсить регулярными выражениями. В то время как специализированные библиотеки позволяют работать с HTML через DOM, xpath и css-селекторы.

Добавлено через 9 минут
См. также Parsing Html The Cthulhu Way
1
Эксперт С++
8385 / 6147 / 615
Регистрация: 10.12.2010
Сообщений: 28,683
Записей в блоге: 30
01.12.2016, 11:09 5
Цитата Сообщение от OwenGlendower Посмотреть сообщение
Avazart, тем что HTML не имеет регулярной структуры и поэтому его тяжело парсить регулярными выражениями.
Конкретно в данном случае не вижу проблем с этим, в чем сложность?
0
Администратор
Эксперт .NET
17019 / 13372 / 5217
Регистрация: 17.03.2014
Сообщений: 27,342
Записей в блоге: 1
01.12.2016, 11:19 6
Avazart, ни в чем. Просто на мой взгляд xpath //a[@href] или css селектор a[href] являются более выразительными и понятными чем регулярное выражение.
1
01.12.2016, 11:19
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
01.12.2016, 11:19
Помогаю со студенческими работами здесь

PR внутренних ссылок в SAPE
Никто не замечал такую вещь, что когда покупаешь внутренние ссылки вроде, судя по показателям SAPE,...

Количество внутренних ссылок
Здравствуйте. У меня возник вот такой вопрос. Сколько внутренних ссылок я могу проставить на...

Выбор внутренних ссылок
Всем добрый день! Возникла задача реализовать на сайте перелинковку на другие статьи этого же...

Индексация ненужных внутренних ссылок
Трям всем! Вот собственно сабж: Есть сайт. По адресу http://site.ru/index.php?list=yes...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru