Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.81/16: Рейтинг темы: голосов - 16, средняя оценка - 4.81
 Аватар для ITL
284 / 255 / 73
Регистрация: 17.07.2012
Сообщений: 618

Регулярные выражения для парсинга HTML

02.08.2012, 14:24. Показов 3340. Ответов 10
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Допустим скачал HTML страницу.
Внутри ее кучи строк и мне нужно вырезать все , что находится между :

HTML5
1
<p id="story_1">  текст, который надо вырезать  </p>
Про регулярные выражения читал, но не получается составить грамотно поиск. Буду очень благодарен, если кто-то сможет описать границы в pattern и объяснить, что к чему с символами.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
02.08.2012, 14:24
Ответы с готовыми решениями:

Регулярные выражения для парсинга HTML
Как можно заменить такое: .Replace(&quot;&lt;font color=\&quot;White\&quot;&gt;&quot;, &quot;&quot;) .Replace(&quot;&lt;font color=\&quot;Olive\&quot;&gt;&quot;, &quot;&quot;) .Replace(&quot;&lt;font...

Регулярные выражения для парсинга IP-адресов
В сообщении могут содержаться IP-адреса компьютеров в формате d.d.d.d, где d – целое число из диапазона от 0 до 255. Удалить из...

Регулярные выражения для парсинга адреса картинки
Помогите, пожалуйста, составить регулярное выражения для парсинга адреса картинки (http://site.ru/1b5c527e.gif) со следующего фрагмента...

10
713 / 680 / 126
Регистрация: 30.03.2012
Сообщений: 1,124
02.08.2012, 15:02
C#
1
2
3
            var reg=new Regex(@"(?<=<p id=""story_1"">)[\d\D]+(?=</p>)");
            string str = @"<p id=""story_1""> текст, который надо вырезать </p>";
            var m=reg.Match(str);
1
 Аватар для ITL
284 / 255 / 73
Регистрация: 17.07.2012
Сообщений: 618
02.08.2012, 16:43  [ТС]
Спасибо,смысл понял, то там двойные скобки вы поставили, а в тексте то они одни, если их убрать, то уже не работает, как изолировать их? или обойти это ограничение
0
556 / 510 / 25
Регистрация: 23.07.2009
Сообщений: 2,359
Записей в блоге: 1
02.08.2012, 16:45
недавно подобным заморачивался, установил, что с помощью HtmlAgilityPack это удобнее делается, хотя регулярные выражения - мощная вещь (настолько же и сложная).
0
713 / 680 / 126
Регистрация: 30.03.2012
Сообщений: 1,124
02.08.2012, 16:49
Цитата Сообщение от ITL Посмотреть сообщение
Спасибо,смысл понял, то там двойные скобки вы поставили, а в тексте то они одни, если их убрать, то уже не работает, как изолировать их? или обойти это ограничение
не совсем понял о каких скобках речь
приведите пример с чем не работает / как должно работать?
0
 Аватар для ITL
284 / 255 / 73
Регистрация: 17.07.2012
Сообщений: 618
02.08.2012, 16:52  [ТС]
C#
1
(@"(?<=<p id=""story_1"">)[\d\D]+(?=</p>)");
вот тут , ""story_01"" , две двойные ковычки, но в тексте они одинарные. Я про это.
0
713 / 680 / 126
Регистрация: 30.03.2012
Сообщений: 1,124
02.08.2012, 16:55
двойные кавычки будут восприняты как одинарные
одинарные в свою очередь будут восприняты как завершение строки
т.е. если вы хотите чтобы в строке были кавычки - ставьте два раза, они будут восприняты как один и поиск будет работать именно с одинарными
дело в том что вот такое объявление:
C#
1
"\""
для точных строк (начинающихся с @) не подойдет т.к. все символы воспринимаются как они есть и \ обозначает не начало управляющей последовательности, а именно символ \

что вы имеете в виду под изолировать / обойти ограничение (что за ограничение?)
0
 Аватар для ITL
284 / 255 / 73
Регистрация: 17.07.2012
Сообщений: 618
02.08.2012, 17:17  [ТС]
а, тьфу....это я не правильно изменил строку, все работает. Но вот проблема, дело в том , что оно вырезает все дальше, т.е после первого </p> просто не останавливается и копирует все , что есть дальше.
0
713 / 680 / 126
Регистрация: 30.03.2012
Сообщений: 1,124
02.08.2012, 17:22
приведите пример строки плз
0
 Аватар для ITL
284 / 255 / 73
Регистрация: 17.07.2012
Сообщений: 618
02.08.2012, 17:26  [ТС]
Цитата Сообщение от Tessen Посмотреть сообщение
приведите пример строки плз
Просто приведу пример:
HTML5
1
2
3
<p class="the" id="story_1"> БЛА-бла-бла-бла-бла </p>
...
<какая-то другая информация>
У меня получается вырезает "Бла-бла-бла-бла-бла ...<какая-то другая информация>"
0
713 / 680 / 126
Регистрация: 30.03.2012
Сообщений: 1,124
02.08.2012, 17:34
C#
1
2
3
4
5
            var reg = new Regex(@"(?<=<p id=""story_1"">)[\d\D]+(?=</p>)");
            string str = @"<p id=""story_1""> БЛА-бла-бла-бла-бла </p>
 ...
 <какая-то другая информация>";
            var m = reg.Match(str);
выдает все правильно
class="the" удалил т.к.тогда совпадения нет вообще (в изначальном примере class= нету
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
02.08.2012, 17:34
Помогаю со студенческими работами здесь

Регулярные выражения, спецсимволы html
Добрый день, прошу Вас подсказать Как можно с помощью регулярных выражений описать спецсимволы html &amp;nbsp; и тому подобные? Я...

Регулярные выражения - поиск в html
Добрый день. Есть html документ. Как выбрать часть текста? Допустим: Текст находится посредине. 1. Начинается он с &lt;div...

Парсинг HTML через регулярные выражения
Помогите с помощью регулярного выражения вытянуть 3 значения из HTML документа.

Регулярные выражения: удаление html-тегов
Как с помощью регулярных выражений избавиться от вывода в текст HTML-тегов? т.е. в программу на данном этапе выводится текст типа...

Парсинг HTML через регулярные выражения
Здравствуйте, есть исходник html странички. Мне нужно вытащить из неё все нужные мне строки. Допустим: &lt;li...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
11
Ответ Создать тему
Новые блоги и статьи
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
Установка Qt-версии Lazarus IDE в Debian Trixie Xfce
volvo 10.02.2026
В общем, достали меня глюки IDE Лазаруса, собранной с использованием набора виджетов Gtk2 (конкретно: если набирать текст в редакторе и вызвать подсказку через Ctrl+Space, то после закрытия окошка. . .
SDL3 для Web (WebAssembly): Работа со звуком через SDL3_mixer
8Observer8 08.02.2026
Содержание блога Пошагово создадим проект для загрузки звукового файла и воспроизведения звука с помощью библиотеки SDL3_mixer. Звук будет воспроизводиться по клику мышки по холсту на Desktop и по. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru