Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.85/13: Рейтинг темы: голосов - 13, средняя оценка - 4.85
0 / 0 / 0
Регистрация: 23.03.2013
Сообщений: 20

Выбор дочерних HTML элементов через HtmlAgilityPack

23.03.2013, 17:57. Показов 2622. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день. Я новичок в C#, поэтому не могу разобраться с таким моментом. В Python существует библиотека BeautifulSoup для парсинга html-страниц. Там есть такая функция. Можно ли что-то подобное сделать при помощи HtmlAgilityPack. Я пробовал через

C#
1
HtmlNode contents = node.DescendantNodes()
Короче мне нужно чтобы все дочерние элементы сохранялись в переменную. Т.е. как в примере выше имеем все что содержится в теге p записывалось в переменную.

Python
1
2
3
pTag = soup.p
pTag.contents
# [u'This is paragraph ', <b>one</b>, u'.']
HTML5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# <html>
#  <head>
#   <title>
#    Page title
#   </title>
#  </head>
#  <body>
#   <p id="firstpara" align="center">
#    This is paragraph
#    <b>
#     one
#    </b>
#    .
#   </p>
#  </body>
# </html>
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
23.03.2013, 17:57
Ответы с готовыми решениями:

Какие-то странности с html, из-за этого трудности с парсингом в HtmlAgilityPack.dll
Есть таблица в html коде: &lt;table cellspacing=&quot;0&quot; cellpadding=&quot;0&quot; width=&quot;100%&quot; border=&quot;1&quot;&gt; &lt;tbody&gt; &lt;tr&gt; ...

Парсинг HTML и htmlagilitypack
Здравствуйте, задался целью написать парсер расписания ВУЗ'a. Хочу достать элемент ,например. &lt;p&gt;Основы учения о полезных ископ...

Спарсить курс валюты из Html с HtmlAgilityPack
Привет! пытаюсь тут парсить курс валют, есть строка вида &lt;td class=&quot;weak&quot;&gt; &lt;ins...

6
169 / 132 / 29
Регистрация: 16.02.2013
Сообщений: 867
23.03.2013, 21:27
а с помощью регулярок не лучше?
0
 Аватар для Yukikaze
352 / 331 / 49
Регистрация: 12.12.2011
Сообщений: 563
23.03.2013, 21:54
Не совсем понял вопроса, или даже совсем не понял но вот что получилось
Выведет содержимое всех параграфов на странице, без тегов
C#
1
2
3
4
foreach(var p in doc.DocumentNode.Descendants("p").ToArray())
{
    Console.WriteLine(p.InnerText);
}
C#
1
2
3
4
foreach(var p in doc.DocumentNode.Descendants("p").ToArray())
{
    Console.WriteLine(p.InnerHtml);
}
То же самое, только с тегами
0
0 / 0 / 0
Регистрация: 23.03.2013
Сообщений: 20
24.03.2013, 19:18  [ТС]
Цитата Сообщение от Yukikaze Посмотреть сообщение
Не совсем понял вопроса, или даже совсем не понял но вот что получилось
Выведет содержимое всех параграфов на странице, без тегов
C#
1
2
3
4
foreach(var p in doc.DocumentNode.Descendants("p").ToArray())
{
    Console.WriteLine(p.InnerText);
}
C#
1
2
3
4
foreach(var p in doc.DocumentNode.Descendants("p").ToArray())
{
    Console.WriteLine(p.InnerHtml);
}
То же самое, только с тегами
То что нужно спасибо. Правда я никак не могу понять почему она дублирует несколько раз один и тот же html-код. Я пробовал записать весь код в .txt-файлик, но вот вместо 500 строк, он мне сует туда 6000 строк. Что я делаю не так?

C#
1
2
3
4
5
6
7
8
9
10
11
    
HtmlWeb doc = new HtmlWeb();
HtmlDocument content = new HtmlDocument();
content = doc.Load("http://en.wikipedia.org/wiki/Programming_language");
TextWriter tw = new StreamWriter("C:\\html.txt");
foreach (var node in content.DocumentNode.Descendants())
{
     tw.WriteLine("{0}", node.InnerHtml);
}
tw.Close();
Console.ReadKey();
Пробовал и так
C#
1
2
3
4
foreach (var node in content.DocumentNode.Descendants().ToArray())
{
     tw.WriteLine("{0}", node.InnerHtml);
}
также плодит одинаковые строки.
0
 Аватар для Yukikaze
352 / 331 / 49
Регистрация: 12.12.2011
Сообщений: 563
24.03.2013, 21:00
heliogracie, потому что HTML разметка имеет древовидную структуру
Например мы имеем документ вот такой структуры
HTML5
1
2
3
4
5
6
7
8
<html>
    <head>
        <title>Title</title>
    </head>
    <body>
        <p>Paragraph</p>
    </body>
</html>
Проходим по нему вот таким циклом
C#
1
2
3
4
foreach (var node in content.DocumentNode.Descendants().ToArray())
{
     tw.WriteLine("{0}", node.InnerHtml);
}
На первой итерации получаем
HTML5
1
2
3
4
5
6
    <head>
        <title>Title</title>
    </head>
    <body>
        <p>Paragraph</p>
    </body>
потому что, это содержимое тега html
след. итерация
HTML5
1
<title>Title</title>
потом
HTML5
1
Title
с веткой head разобрались, переходим к ветке body
HTML5
1
<p>Paragraph</p>
HTML5
1
Paragraph
Вот тебе и повторы
0
0 / 0 / 0
Регистрация: 23.03.2013
Сообщений: 20
25.03.2013, 10:51  [ТС]
Yukikaze, неужели нет никакого способа извлечь html-код без повторов? Мне нужно сделать поискового робота, которые будет бегать по ссылкам на странице, беря со страницы весь текст и деля его на слова и добавляя эти слова в базу данных.
0
Эксперт Java
 Аватар для turbanoff
4094 / 3828 / 745
Регистрация: 18.05.2010
Сообщений: 9,331
Записей в блоге: 12
25.03.2013, 12:18
Например, проверяйте есть ли потомки у тех элементов, которые вы перебираете.
Есть нет - то добавляйте элемент к себе.

Задача-то примитивная, у HAP очень неплохой API - изучите его и примеры чуть подробней. Должно все стать ясно.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
25.03.2013, 12:18
Помогаю со студенческими работами здесь

HtmlAgilityPack и Html страница со сложными таблицами
сложные эт примерно так table tr table tr table tr td Fr ...

Распарсить html теги или обойти их с XPath (HtmlAgilityPack)
Парни,нужно любыми способами сделать что бы все теги поместились в каком-то масиве (исходник html беру с HtmlDocument.LoadHtml) . Смотрел ...

Парсинг HTML (HtmlAgilityPack). Как получить картинку между текстом?
Пример HTML &lt;p class=&quot;left_margin&quot;&gt; 5) &lt;img src=&quot;https://sait.ru/formula/svg/8b/8b847cfae498e96e3fa08a56cb42b838.svg&quot;...

Работа с HtmlAgilityPack. В HTML разметке несколько таблиц, как получить только первую?
В html разметке несколько таблиц, как вытащить только первую? В данной таблице, присутствуют строчки. Как эти строчки перевернуть, то...

Отпарсить html страницу (HtmlAgilityPack, xPath)
Всем привет. Может кто-нибудь подскажет, как с помощью HtmlAgilityPack и xPath отпарсить эту страницу? ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten
8Observer8 27.02.2026
Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru