Аватар для Максимуус
17 / 17 / 5
Регистрация: 13.12.2010
Сообщений: 61

Программа скачивает код заданной страницы, анализирует его, определяет заголовок страницы и ссылки на другие страницы

10.10.2011, 18:33. Показов 5337. Ответов 9
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Подскажите в какую степь думать надо, где прочитать и т.д.
Сделать не прошу так как хочу сделать сам просто подскажите, хочу разобраться! Спасибо

Задание:
Нужно сделать приложение WinForms, которое на вход получает адрес веб-страницы и на основе этой информации строит дерево зависимостей страницы от других страниц. Программа также должна принимать на вход глубину поиска, игнорировать перекрестные ссылки и исключать повторяющиеся адреса, выводить результат в виде дерева с указанием адреса страницы и его заголовка.
Также нужно предусмотреть опцию сохранения результатов работы в XML-файл.

Например, программа скачивает код заданной страницы, анализирует его, определяет заголовок страницы и ссылки на другие страницы.
После чего, для каждой из найденных ссылок операция повторяется. В результате на выходе мы получим дерево вида:

-Test Title (http://www.test.com)

----Test1 Title (http://www.test1.com)

--------Test11 Title (http://www.test11.com)

----Test2 (http://www.test2.com)

-Test10 Title (http://www.test10.com)
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
10.10.2011, 18:33
Ответы с готовыми решениями:

Переход на другие страницы в Firefox - адрес меняется, сами страницы - нет
Здравствуйте Уважаемые мастера! У меня проблема возникла приличная! Дело в том что у меня сайт отлично работает в мозиле, а в других...

При открытии страницы в Google Chrome открываются другие страницы
Проблема возникла одновременно на 4 различных компьютерах в 3-х разных местах, везде где использую свою учетную запись Google Chrome,...

Включить другие страницы в базовый шаблон главной страницы
Здравствуйте! Подскажите, пожалуйста, каким способом можно включить вывод страниц (aboutus.php, contact.php) в отображение на главной...

9
Эксперт .NET
 Аватар для kolorotur
17810 / 12961 / 3381
Регистрация: 17.09.2011
Сообщений: 21,250
10.10.2011, 18:36
Думайте в степь классов System.Net.HttpWebRequest и System.Net.HttpWebResponse
Чтобы получить HTML страницы - это пара-тройка строчек кода.

После получения думайте в степь System.Text.RegularExpressions.Regex

Повторить думанья для каждой ссылки.

Потом начинайте думать в степь контрола System.Windows.Forms.TreeView и класса System.Xml.Serialization.XmlSerializer

Еще могу порекомендовать додуматься до простого класса или структурки - чтобы хранить информацию по каждой ссылке (заголовок + адрес). Особенно если все-таки надумаете использовать XmlSerializer

Почитать обо всем можно на MSDN - просто вбивайте в поиск вышеприведенные классы и тыкайте на первый вариант в списке результатов.
1
 Аватар для ushim
179 / 180 / 55
Регистрация: 01.06.2011
Сообщений: 507
10.10.2011, 18:38
1. Получание html кода страницы
2. Работа со строками (или через стандартные функции, или через регексы)
3. Работа с массивами, а лучше списками (добавление новых ссылок, и другой анализ)

Как и просил, ничего не писал, помог определиться с областью поиска информации. Далеко ходить не надо, на форуме много раз всё обсуждалось

Добавлено через 54 секунды
блин, опередили
1
 Аватар для Максимуус
17 / 17 / 5
Регистрация: 13.12.2010
Сообщений: 61
10.10.2011, 18:58  [ТС]
Скоро буду пробовать. Чувствую еще будет много вопросов). Спасибо.
0
 Аватар для Максимуус
17 / 17 / 5
Регистрация: 13.12.2010
Сообщений: 61
11.10.2011, 23:42  [ТС]
Сделал такую регулярку для поиска ссылок в HTML странице :
C#
1
2
string HRefPattern = @"(\b\w+:\/\/\w+((\.\w)*\w+)*\.\w{2,4})";//шаблон для поиска адресов http://
            Regex re = new Regex(HRefPattern);
Как убрать повторения?

Добавлено через 22 минуты
Предложите свою Регулярку для того чтобы вытащить из тега <a> </a> значение атрибута href
0
17.10.2011, 00:14

Не по теме:

Привет,зря ты на форуме столько вопросов задаёш рекрутёр из фирмы ***** Кирилл,наверное уже это видел и за это я думаю можно получить -.

0
17.10.2011, 16:54  [ТС]

Не по теме:

Ведь тут нету готовых решений

0
0 / 0 / 0
Регистрация: 25.11.2013
Сообщений: 2
25.11.2013, 16:16
Максимуус, а вы сделали это задание?
0
0 / 0 / 0
Регистрация: 04.02.2010
Сообщений: 38
16.01.2014, 15:26
доброго времени суток!

У меня практически то же задание, только реализовать я его не смогу. Ума не хватит и времени мало. Если пожелаете возможна оплата
0
Администратор
Эксперт .NET
 Аватар для tezaurismosis
9649 / 4802 / 762
Регистрация: 17.04.2012
Сообщений: 9,638
Записей в блоге: 14
16.01.2014, 16:38
pina4et, это бесплатный раздел. Если хотите задание за оплату, пишите во Фриланс
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
16.01.2014, 16:38
Помогаю со студенческими работами здесь

WebClient неправильно скачивает код страницы
пишу парсер новостей Яндекса. Необходимо скачать код страници, и он вроди бы скачивается но неправильно. код страници с яндекса совсем не...

Ссылки на другие страницы
Я сделал ссылки таким образом &lt;ul&gt; &lt;li style=&quot;border-left: none&quot;&gt;&lt;a href=&quot;javascript: document.location.href...

Не выводятся ссылки на другие страницы
Здравствуйте, я в PHP новичок и у меня есть вопрос касаемо этого кода: $db_server = '127.0.0.1'; $db_user = 'SERGEY'; $db_password...

Ссылки на другие страницы... и тиц
если бэки идут не на главную, а на вторые страницы сайта, тиц все равно вырастет?

Ссылки на другие страницы в таблице
&lt;?php echo &quot;&lt;table border='1' width='100%'&gt; &lt;tr&gt;&lt;td&gt;&lt;ul&gt; &lt;li&gt;Знания периферии &lt;/li&gt; &lt;/ul&gt; &lt;/td&gt;&lt;td&gt;2.2&lt;/td&gt;&lt;/tr&gt; ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Опции темы

Новые блоги и статьи
Анализ и линтинг кода JavaScript: ESLint, Prettier и JSHint
run.dev 26.04.2025
JavaScript прошёл долгий путь от простого языка для анимации веб-страниц до основы современной веб-разработки. С ростом сложности приложений, увеличением кодовых баз и масштабированием команд. . .
Паттерны в Python: Singleton, Factory и Observer
py-thonny 26.04.2025
Паттерны проектирования — это проверенные временем решения типовых проблем разработки программного обеспечения. Их история берёт начало с книги "Приёмы объектно-ориентированного проектирования. . . .
Исключения в C#: Stack Overflow, Access Violation и Out of memory
stackOverflow 26.04.2025
Исключения в C# — это не только механизм оповещения о проблемах, а целое искусство управления потоком выполнения программы в экстремальных ситуациях. Обычное исключение, например,. . .
Логирование в C# ASP.NET Core с помощью Serilog, ElasticSearch, Kibana
stackOverflow 25.04.2025
Помните те времена, когда для анализа проблемы приходилось подключаться к серверу, искать нужный лог-файл среди десятков других и вручную фильтровать тысячи строк в поисках ошибки? К счастью, эти дни. . .
Структура "железный OnKeyUp" вместо антидребезга. Полностью асинхронный счётчик.
Hrethgir 25.04.2025
Программа для симуляции схемы - Logisim Evolution В общем какое-то время отвлёкся, так было надо, теперь когда запилю это на verilog и FPGA , досоставлю заявку в ФИПС на полезную модель - не готов. . .
Автоматизация Amazon Web Services (AWS) с Boto3 в Python
py-thonny 25.04.2025
Облачные вычисления стали неотъемлемой частью современной ИТ-инфраструктуры, а Amazon Web Services (AWS) занимает лидирующие позиции среди провайдеров облачных услуг. Управление многочисленными. . .
Apache Kafka vs RabbitMQ в микросервисной архитектуре
ArchitectMsa 25.04.2025
Современная разработка ПО всё чаще склоняется к микросервисной архитектуре — подходу, при котором приложение разбивается на множество небольших, автономных сервисов. В этой распределённой среде. . .
Параллельное программирование с OpenMP в C++
NullReferenced 24.04.2025
Параллельное программирование — подход к созданию программ, когда одна задача разбивается на несколько подзадач, которые могут выполняться одновременно. Оно стало необходимым навыком для. . .
Цепочки методов в C# с Fluent API
UnmanagedCoder 24.04.2025
Современное программирование — это не только решение функциональных задач, но и создание кода, который удобно поддерживать, расширять и читать. Цепочки методов и Fluent-синтаксис в C# стали мощным. . .
Мульти-тенантные БД с PostgreSQL Row Security
Codd 23.04.2025
Современные облачные сервисы и бизнес-приложения всё чаще обслуживают множество клиентов в рамках единой программной инфраструктуры. Эта архитектурная модель, известная как мульти-тенантность, стала. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru