Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.79/14: Рейтинг темы: голосов - 14, средняя оценка - 4.79
0 / 0 / 0
Регистрация: 06.05.2011
Сообщений: 6

Поиск регулярным выражением фрагмента текста с пустой строкой

06.05.2011, 11:41. Показов 2791. Ответов 9
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Столкнулся со следующей проблемой: есть книга в виде HTML, в которой главы представлены так:

HTML5
1
2
3
<h2>Глава 1</h2>
 
<div class='chapter_title'>Название главы</div>
Необходимо заменить этот код для каждой главы на такой:

HTML5
1
2
3
<h3>Глава 1</br>
 
<span class="chapter_name">Название главы</span></h3>
Я не могу справиться с Regex.Matches - не могу написать регулярное выражение, которое бы выделяло текст от тега <h2> до тега </div>. Там есть переносы на новую строку плюс пустая строка. Пробовал разные варианты и никак ничего не находится. Regex.Matches выполняется с опцией RegexOptions.Multiline.

Где подводный камень? Спасибо
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
06.05.2011, 11:41
Ответы с готовыми решениями:

Поиск регулярным выражением
Всем доброго утра. Помогите пожалуйста составить регулярное выражение для поиска такой штуки: ИЗВЕСТНО - заранее известное слово, в...

Поиск слова регулярным выражением
Добрый день. Есть строка: ---- Hi nickname, Sorry to hear you\ ---- Нужно вытащить регуляркой nickname, причем на практике он может...

Поиск регулярным выражением единственного соответствия
Есть регулярка &lt;div class=\&quot;q\&quot;&gt;*&lt;hr class=\&quot;iq\&quot;&gt;, но она ищет до последнего &lt;hr class=\&quot;iq\&quot;&gt;, то есть получается лишь одно соответствие,...

9
4 / 4 / 0
Регистрация: 31.01.2010
Сообщений: 27
06.05.2011, 12:04
Цитата Сообщение от AndryS Посмотреть сообщение
Столкнулся со следующей проблемой: есть книга в виде HTML, в которой главы представлены так:

HTML5
1
2
3
<h2>Глава 1</h2>
 
<div class='chapter_title'>Название главы</div>
Необходимо заменить этот код для каждой главы на такой:

HTML5
1
2
3
<h3>Глава 1</br>
 
<span class="chapter_name">Название главы</span></h3>
Я не могу справиться с Regex.Matches - не могу написать регулярное выражение, которое бы выделяло текст от тега <h2> до тега </div>. Там есть переносы на новую строку плюс пустая строка. Пробовал разные варианты и никак ничего не находится. Regex.Matches выполняется с опцией RegexOptions.Multiline.

Где подводный камень? Спасибо
Выражение, кажется, будет таким:
C#
1
<h2>(?<name>[а-яА-Я0-9\s]+</h2>\s+<div class='[\w]+'>[а-яА-Я0-9\s]+)</div>
Вообще по поводу регулярных выражений есть хороший процессор. Пользуйтесь и проверяйте там, мне всегда помогало.
0
0 / 0 / 0
Регистрация: 06.05.2011
Сообщений: 6
06.05.2011, 12:42  [ТС]
Спасибо! У меня есть похожий вариант:

C#
1
<h2>\s*(.+?)\s*</h2>\s+<div class='chapter_title'>\s*(.+?)\s*</div>
Он прекрасно обрабатывается в процессоре по вашей ссылке, но программа моя все равно не работает. Видимо, я ошибаюсь где-то еще. Вот мой код (упрощенный вариант, использую Regex.Match для замены <div class='chapter_title'> на <span class="chapter_name">, если перед этим есть </h2>):

C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
string ChapterTitle = @"</h2>\s+<div class='chapter_title'>\s*(.+?)\s*</div>";
 
StreamReader streamReader = new StreamReader(SourceFilePath);
StreamWriter streamWriter = new StreamWriter(DestinTextPath, false, Encoding.UTF8);
            
while (!streamReader.EndOfStream)
     {
      string data = streamReader.ReadLine();
      Match chaptertitle = Regex.Match(data, ChapterTitle, RegexOptions.Multiline);
 
      if(chaptertitle.Success) {
      data = Regex.Replace(data, ChapterTitle, @"</h2>\s+<span class=""chapter_name"">chaptertitle.Groups[1].Value</span>");
      }
        
      streamWriter.WriteLine (data);
     }
      streamReader.Close();
      streamWriter.Close();
Здесь где-то ошибка?
0
4 / 4 / 0
Регистрация: 31.01.2010
Сообщений: 27
06.05.2011, 15:40
Да, в 12 строке.
C#
1
2
3
if(chaptertitle.Success) {
      data = Regex.Replace(data, ChapterTitle, @"</h2>\s+<span class=""chapter_name"">"+chaptertitle.Groups[1].Value+"</span>");
      }
0
0 / 0 / 0
Регистрация: 06.05.2011
Сообщений: 6
06.05.2011, 15:54  [ТС]
Цитата Сообщение от Прайм Посмотреть сообщение
Да, в 12 строке.
Упс, да, это ошибка, но это я на форуме накосячил, это не копи-паст из исходника. Сама программа все равно не работает - она просто не видит текст, который менять. Вопрос на что менять - это другой вопрос )
0
4 / 4 / 0
Регистрация: 31.01.2010
Сообщений: 27
06.05.2011, 17:40
Дайте исходный файл, который парсить надо; так будет легче регулярку протестить. Ибо на том куске, что был дан, она отрабатывает.

Только что протестил на таком коде и выдало искомую строку.
C#
1
2
3
4
5
6
            string s = @"<h2>Глава 1</h2>
 
<div class='chapter_title'>Название главы</div>";
            Regex r = new Regex(@"<h2>(?<name>[а-яА-Я0-9\s]+</h2>\s+<div class='[\w]+'>[а-яА-Я0-9\s]+)</div>", RegexOptions.Compiled | RegexOptions.Multiline);
            Match m = r.Match(s);
            MessageBox.Show(m.Groups["name"].Value);
0
0 / 0 / 0
Регистрация: 06.05.2011
Сообщений: 6
06.05.2011, 20:11  [ТС]
Исходный файл, собственно, ничем от примера не отличается. Только вместо "название главы" идет реальное название главы, а дальше идет текст главы между <p> и </p>. Прицепил в аттач один такой файл.

Регулярка работает, я ее оттелистил отдельно.

Похоже проблема в том, что когда я читаю файл при помощи Stream.Reader, я каждый раз загоняю в переменную data новую строку, а не набор строк, внутри которых регулярка ищет совпадения. То есть, сначала я прочитал <h2>Глава 1</h2>, затем прочитал пустую строку, затем прочитал <div class='chapter_title'>Название главы</div>. Естественно, что в каждой из этих строк регулярка ничего не находит.

Вопрос, на который я не могу ответить: как читать файл так, чтобы этот поиск работал? Чтобы регулярнкой анализировался массив строк?
Вложения
Тип файла: txt chapter.txt (18.1 Кб, 19 просмотров)
0
гроза ленивых студентов
 Аватар для znake
456 / 411 / 51
Регистрация: 27.03.2011
Сообщений: 823
06.05.2011, 20:12
читай файл в массив строк
0
4 / 4 / 0
Регистрация: 31.01.2010
Сообщений: 27
06.05.2011, 22:27
Тьфу ты, и правда, построчно вычитываешь. А если дёшего и сердито - сразу reader.ReadToEnd() ? Дальше там же парсишь регуляркой, заменяешь - и в streamwriter.
0
гроза ленивых студентов
 Аватар для znake
456 / 411 / 51
Регистрация: 27.03.2011
Сообщений: 823
06.05.2011, 22:29
Цитата Сообщение от AndryS Посмотреть сообщение
Чтобы регулярнкой анализировался массив строк
Цитата Сообщение от Прайм Посмотреть сообщение
сразу reader.ReadToEnd()
ReadToEnd считает всё, но в одну строку...а ТС говорил о массиве строк...
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
06.05.2011, 22:29
Помогаю со студенческими работами здесь

Извлечь цифры из текста после определённых символов регулярным выражением
Здравствуйте, пожалуйста помогите сделать следующее: имеется строка (например): ...

Поиск соответствия содержания текстового поля с регулярным выражением не абсолютно
Добрый день! Помогите разобраться с регулярными выражениями, никогда до конца их не понимал. Необходимо в поле ввести ФИО через...

Обработка считывания текста из файла с завершающей пустой строкой
Вроде бы вопрос простой - используй fstream и живи спокойно. Так и было до поры, до времени. Был такой код: double tmp; ...

с регулярным выражением.
Имеем текст youtube.com/watch?v=LOZuxwVk7TU&amp;ob=av2em нужно получить то что находится между /watch?v= и &amp; в нашем случае...

Запутался с регулярным выражением
Смотрел SED'овский туториал и не могу понять последний пример. Что-то вообще слабо укладывается процесс нахождения шаблона. Кому не сложно,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Новые блоги и статьи
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru