Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.81/16: Рейтинг темы: голосов - 16, средняя оценка - 4.81
 Аватар для ITL
284 / 255 / 73
Регистрация: 17.07.2012
Сообщений: 618

Регулярные выражения для парсинга HTML

02.08.2012, 14:24. Показов 3332. Ответов 10
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Допустим скачал HTML страницу.
Внутри ее кучи строк и мне нужно вырезать все , что находится между :

HTML5
1
<p id="story_1">  текст, который надо вырезать  </p>
Про регулярные выражения читал, но не получается составить грамотно поиск. Буду очень благодарен, если кто-то сможет описать границы в pattern и объяснить, что к чему с символами.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
02.08.2012, 14:24
Ответы с готовыми решениями:

Регулярные выражения для парсинга HTML
Как можно заменить такое: .Replace(&quot;&lt;font color=\&quot;White\&quot;&gt;&quot;, &quot;&quot;) .Replace(&quot;&lt;font color=\&quot;Olive\&quot;&gt;&quot;, &quot;&quot;) .Replace(&quot;&lt;font...

Регулярные выражения для парсинга IP-адресов
В сообщении могут содержаться IP-адреса компьютеров в формате d.d.d.d, где d – целое число из диапазона от 0 до 255. Удалить из...

Регулярные выражения для парсинга адреса картинки
Помогите, пожалуйста, составить регулярное выражения для парсинга адреса картинки (http://site.ru/1b5c527e.gif) со следующего фрагмента...

10
713 / 680 / 126
Регистрация: 30.03.2012
Сообщений: 1,124
02.08.2012, 15:02
C#
1
2
3
            var reg=new Regex(@"(?<=<p id=""story_1"">)[\d\D]+(?=</p>)");
            string str = @"<p id=""story_1""> текст, который надо вырезать </p>";
            var m=reg.Match(str);
1
 Аватар для ITL
284 / 255 / 73
Регистрация: 17.07.2012
Сообщений: 618
02.08.2012, 16:43  [ТС]
Спасибо,смысл понял, то там двойные скобки вы поставили, а в тексте то они одни, если их убрать, то уже не работает, как изолировать их? или обойти это ограничение
0
556 / 510 / 25
Регистрация: 23.07.2009
Сообщений: 2,359
Записей в блоге: 1
02.08.2012, 16:45
недавно подобным заморачивался, установил, что с помощью HtmlAgilityPack это удобнее делается, хотя регулярные выражения - мощная вещь (настолько же и сложная).
0
713 / 680 / 126
Регистрация: 30.03.2012
Сообщений: 1,124
02.08.2012, 16:49
Цитата Сообщение от ITL Посмотреть сообщение
Спасибо,смысл понял, то там двойные скобки вы поставили, а в тексте то они одни, если их убрать, то уже не работает, как изолировать их? или обойти это ограничение
не совсем понял о каких скобках речь
приведите пример с чем не работает / как должно работать?
0
 Аватар для ITL
284 / 255 / 73
Регистрация: 17.07.2012
Сообщений: 618
02.08.2012, 16:52  [ТС]
C#
1
(@"(?<=<p id=""story_1"">)[\d\D]+(?=</p>)");
вот тут , ""story_01"" , две двойные ковычки, но в тексте они одинарные. Я про это.
0
713 / 680 / 126
Регистрация: 30.03.2012
Сообщений: 1,124
02.08.2012, 16:55
двойные кавычки будут восприняты как одинарные
одинарные в свою очередь будут восприняты как завершение строки
т.е. если вы хотите чтобы в строке были кавычки - ставьте два раза, они будут восприняты как один и поиск будет работать именно с одинарными
дело в том что вот такое объявление:
C#
1
"\""
для точных строк (начинающихся с @) не подойдет т.к. все символы воспринимаются как они есть и \ обозначает не начало управляющей последовательности, а именно символ \

что вы имеете в виду под изолировать / обойти ограничение (что за ограничение?)
0
 Аватар для ITL
284 / 255 / 73
Регистрация: 17.07.2012
Сообщений: 618
02.08.2012, 17:17  [ТС]
а, тьфу....это я не правильно изменил строку, все работает. Но вот проблема, дело в том , что оно вырезает все дальше, т.е после первого </p> просто не останавливается и копирует все , что есть дальше.
0
713 / 680 / 126
Регистрация: 30.03.2012
Сообщений: 1,124
02.08.2012, 17:22
приведите пример строки плз
0
 Аватар для ITL
284 / 255 / 73
Регистрация: 17.07.2012
Сообщений: 618
02.08.2012, 17:26  [ТС]
Цитата Сообщение от Tessen Посмотреть сообщение
приведите пример строки плз
Просто приведу пример:
HTML5
1
2
3
<p class="the" id="story_1"> БЛА-бла-бла-бла-бла </p>
...
<какая-то другая информация>
У меня получается вырезает "Бла-бла-бла-бла-бла ...<какая-то другая информация>"
0
713 / 680 / 126
Регистрация: 30.03.2012
Сообщений: 1,124
02.08.2012, 17:34
C#
1
2
3
4
5
            var reg = new Regex(@"(?<=<p id=""story_1"">)[\d\D]+(?=</p>)");
            string str = @"<p id=""story_1""> БЛА-бла-бла-бла-бла </p>
 ...
 <какая-то другая информация>";
            var m = reg.Match(str);
выдает все правильно
class="the" удалил т.к.тогда совпадения нет вообще (в изначальном примере class= нету
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
02.08.2012, 17:34
Помогаю со студенческими работами здесь

Регулярные выражения, спецсимволы html
Добрый день, прошу Вас подсказать Как можно с помощью регулярных выражений описать спецсимволы html &amp;nbsp; и тому подобные? Я...

Регулярные выражения - поиск в html
Добрый день. Есть html документ. Как выбрать часть текста? Допустим: Текст находится посредине. 1. Начинается он с &lt;div...

Парсинг HTML через регулярные выражения
Помогите с помощью регулярного выражения вытянуть 3 значения из HTML документа.

Регулярные выражения: удаление html-тегов
Как с помощью регулярных выражений избавиться от вывода в текст HTML-тегов? т.е. в программу на данном этапе выводится текст типа...

Парсинг HTML через регулярные выражения
Здравствуйте, есть исходник html странички. Мне нужно вытащить из неё все нужные мне строки. Допустим: &lt;li...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
11
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru