Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 Аватар для ArtSmm
32 / 32 / 2
Регистрация: 07.01.2016
Сообщений: 488

Парсинг всех url сайта используя anglesharp

19.06.2022, 17:28. Показов 401. Ответов 1

Студворк — интернет-сервис помощи студентам
Всем привет.
Задумался вот над чем: есть сайт, например 100 страниц.
Как правильно с помощью данной библиотеки собрать все url сайта?

Я пробую так:
Собираю с главной все ссылки, затем по порядку перехожу по ним и собираю ссылки с них?
Верно ли это? Как правильно?
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
19.06.2022, 17:28
Ответы с готовыми решениями:

Парсинг на AngleSharp
Здравствуйте уважаемые господа. Имеется вот такой html "кодец": <div id="29259" class=" pull-left m-5 bg-silver-lighter...

Парсинг через AngleSharp
пытаюсь обратиться к тегу div что не так? пишу недавно на C# точной информации не могу найти по библиотеки AngleSharp var...

Парсинг таблицы AngleSharp
Всем добрый день. Подскажите как правильно(проще) парсить таблицу HTML с помощью AngleSharp? Что бы была возможность работать с данными в...

1
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18298 / 14222 / 5368
Регистрация: 17.03.2014
Сообщений: 28,898
Записей в блоге: 1
19.06.2022, 19:10
ArtSmm, правильно. Только нужно еще запоминать посещенные страницы (ссылки нужно нормализовать) чтобы не зациклиться. По хорошему robots.txt не помешает учесть.

Еще стоит проверить нет ли у сайта sitemap (в robots.txt смотрите). Если есть, то парсинг ссылок резко упростится.

Добавлено через 1 минуту
Еще внешние ссылки нужно отсекать. И, возможно, учесть наличие тега base.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
19.06.2022, 19:10
Помогаю со студенческими работами здесь

Парсинг интернет магазина с AngleSharp
Здравствуйте, дорогие форумчане! У меня проблема решил сделать парсер для интернет-магазина, для этого выбрал AngleSharp, разобрался в нем,...

Async Task парсинг Http с использованием AngleSharp
Прошу совета, помощи. Запрос http: public static async Task<string> GetHttp(string requestUri) { using...

AngleSharp and JS
Доброго времени суток. Делаю парсер с использованием AngleSharp. Столкнулся с проблемой, что не могу распарсить элементы, которые...

Авторизация на AngleSharp
Не получается авторизоваться, не могу понять где ошибка? Как парсить уже полученную страницу после авторизации? Вроде бы записываю в input,...

Работа с AngleSharp?
Всем доброго дня Пробую парсить сайт с помощью данной либы. Во всех примерах участвует такой кусочек кода: var parser = new...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru