Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.91/11: Рейтинг темы: голосов - 11, средняя оценка - 4.91
0 / 0 / 0
Регистрация: 03.08.2011
Сообщений: 6

парcинг html (regex)

25.08.2011, 23:50. Показов 2145. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем привет!
Как с помощью регулярных выражений найти все ссылки в html странице вида:
Code
1
<a href="...>...<h5>...</h5>{\s}</a>
Пояснения:
... - какой-то текст
{\s} - пробелы и/или перевод строки

Все ссылки нахожу с помощью выражения
Code
1
<a\shref="(.|\n)*?(</a>)
а вот шаблон для ссылок с заголовком 5 уровня никак написать не могу
Помогите )
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
25.08.2011, 23:50
Ответы с готовыми решениями:

Regex, html input value parsing
Здравствуйте. Как можно с помощью регулярок из HTML кода вычленить значение value у элемента input, с конкретным аттрибутом name? ...

Удаление комментариев HTML (Regex)
HTML = Regex.Replace(HTML, &quot;&lt;!--(.+?)--&gt;&quot;, string.Empty, RegexOptions.IgnoreCase); такой код удаляет комментарий такой: &lt;!-- Тра ля...

Regex для значения баланса из html
Тут у меня не получается парсить текста Вот код Regex regex = new Regex(&quot;&lt;div &lt;/div&gt;&quot;); MatchCollection matches =...

3
 Аватар для WizarД
53 / 56 / 10
Регистрация: 07.02.2011
Сообщений: 556
Записей в блоге: 1
26.08.2011, 00:30
используйте html agility pack
1
 Аватар для Unril
826 / 717 / 110
Регистрация: 06.10.2010
Сообщений: 825
Записей в блоге: 1
26.08.2011, 12:26
Для примера:
C#
1
2
3
4
5
6
7
8
9
10
            const string fileName = "Википедия*— свободная энциклопедия.htm";
            HtmlDocument document = new HtmlDocument();
            document.Load( fileName );
 
            // Находим все элементы <a href=.. >..<b>..</b>..</a>
            HtmlNodeCollection nodes = document.DocumentNode.SelectNodes( @"//a[@href][b]" );
            foreach ( var node in nodes ) {
                Console.WriteLine( node.SelectSingleNode( "b" ).InnerText.Trim() );
                Console.WriteLine( node.GetAttributeValue( "href", "" ).Trim() );
            }
1
0 / 0 / 0
Регистрация: 03.08.2011
Сообщений: 6
26.08.2011, 15:50  [ТС]
Цитата Сообщение от Unril Посмотреть сообщение
Для примера:
C#
1
2
3
4
5
6
7
8
9
10
            const string fileName = "Википедия*— свободная энциклопедия.htm";
            HtmlDocument document = new HtmlDocument();
            document.Load( fileName );
 
            // Находим все элементы <a href=.. >..<b>..</b>..</a>
            HtmlNodeCollection nodes = document.DocumentNode.SelectNodes( @"//a[@href][b]" );
            foreach ( var node in nodes ) {
                Console.WriteLine( node.SelectSingleNode( "b" ).InnerText.Trim() );
                Console.WriteLine( node.GetAttributeValue( "href", "" ).Trim() );
            }
Спасибо БОЛЬШОЕ! то, что нужно!
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
26.08.2011, 15:50
Помогаю со студенческими работами здесь

Regex найти слово в HTML
Есть исходный код страницы &lt;?xml version=&quot;1.0&quot; encoding=&quot;utf-8&quot;?&gt; &lt;rss version=&quot;2.0&quot;&gt;&lt;channel&gt;&lt;title&gt;Cinemate &amp;gt; Последние...

RegEx для парсинга HTML
Доброго времени суток. Изучаю RegEx и дело дошло до парсинга HTML. В HTML имеются строки вида: &lt;lon key=&quot;003.1211B8&quot;...

RegEx: Определить значение тега Title HTML-страницы
Господа, добрый вечер. Прошу помочь в одной функции: Подключаю System.Net и System.Text.RegularExpressions. Далее мне необходимо в...

Regex, получить значение параметра href из кода HTML
Здравствуйте, есть страница в ней несколько ссылок класса xyz, хочу получить значение параметра href. Вот ссылка: &lt;a...

RegEx: задан текст, в котором определить, является ли он кодом HTML
Помогите написать программу:Задан текст. Определить, является ли он кодом HTML : содержит теги &lt;html&gt;, &lt;form&gt;, &lt;h1&gt;.


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 03.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11680&amp;d=1772460536 Одним из. . .
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten
8Observer8 27.02.2026
Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru