Форум программистов, компьютерный форум, киберфорум
C# .NET
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.74/34: Рейтинг темы: голосов - 34, средняя оценка - 4.74
1 / 1 / 0
Регистрация: 05.06.2014
Сообщений: 14

Поиск текста между тегами

22.07.2014, 14:48. Показов 8950. Ответов 8
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте!
В общем задачка вот какая. Программа идет на один сайт и берет оттуда HTML код.
Код на подобии:

HTML5
1
2
3
4
<title>Какой то текст</title>
<body>
Ещё какой то текст
<body>
Ну так вот. Для того, что бы вытащить текст между тегами <title> и </title> я использовал следующий код:

C#
1
2
3
4
var webClient = new System.Net.WebClient();
string URL = "http://site.ru";
string HTML = webClient.DownloadString(URL);
string match = Regex.Match(HTML, "<title>(.*)</title>").ToString();
В результате значение match у меня приобретало вид: <title>Какой то текст</title> (Это не страшно!).

Но вот когда я попытался использовать этот же код для взятия текста между тегами <body> и </body> то у меня значение match было пустым. Я думаю это как то связано с тем, что они в разных строках находятся. Что с этим делать? Как сделать так, что бы выводило текст между тегами <body> и </body> ?

Заранее спасибо за помощь!
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
22.07.2014, 14:48
Ответы с готовыми решениями:

Поиск текста между символами в тексте
Здравствуйте мне нужно из кода страницы взятого с браузера, найти все строки между символами и записать их в файл на рабочем столе. ...

Регулярные выражения. Извлечь из html текст между двумя тегами
Ломаю голову с регулярными выражениями, не получается корректно решить простую задачу: Нужно извлечь из html текст между двумя тегами, но...

Получить весь текст HTML-страницы, который находится между тегами, кроме заголовка
Здравствуйте, возникла задача отпарсить html. Конкретно, взять весь текст, который находится между тегами, кроме заголовка. Нужно написать...

8
871 / 721 / 304
Регистрация: 15.04.2013
Сообщений: 2,047
Записей в блоге: 5
22.07.2014, 15:25
Никогда не парсите HTML регулярными выражениями они не предназначены для этого. Используйте DOM-парсер, к примеру Html Agility Pack.
0
169 / 132 / 29
Регистрация: 16.02.2013
Сообщений: 867
22.07.2014, 16:02
Цитата Сообщение от XRoy Посмотреть сообщение
они не предназначены для этого
почему это не предназначены?

Как то так -
C#
1
2
3
4
5
var webClient = new System.Net.WebClient();
string URL = "http://site.ru";
string HTML = webClient.DownloadString(URL);
Match match = Regex.Match(HTML, "<title>(.*)</title>");
string result=match.Success ? match.Groups[1].Value : "Не найдено";
1
871 / 721 / 304
Регистрация: 15.04.2013
Сообщений: 2,047
Записей в блоге: 5
22.07.2014, 16:11
Winhttp22,
Это вам повезло, но к примеру может быть записано так:
HTML5
1
2
3
<title>
             Какой-то текст
   </title>
Кроме того body может иметь атрибуты, так что лучшим вариантом будет использовать DOM парсер.
0
2444 / 1842 / 406
Регистрация: 15.12.2013
Сообщений: 8,243
22.07.2014, 16:40
vasiliyvasiliy, точка в регулярных выражениях это любой символ кроме новой строки,надо просто учесть,что может быть и новая строка тоже.
0
169 / 132 / 29
Регистрация: 16.02.2013
Сообщений: 867
22.07.2014, 16:51
Цитата Сообщение от XRoy Посмотреть сообщение
Это вам повезло, но к примеру может быть записано так:
ну тогда так -
C#
1
2
3
4
5
6
7
8
string HTML = @"<title> 
                        Какой-то текст.         
        </title>";
            Console.WriteLine(HTML);
        Match match = Regex.Match(HTML, @"<title>.*?(\w.*)\s*</title>",RegexOptions.Singleline);
        string result=match.Success ? match.Groups[1].Value : "Не найдено";
        Console.WriteLine("result = {0}",result);
        Console.ReadKey();
Цитата Сообщение от XRoy Посмотреть сообщение
body
а это причем тут?
Согласен - в некотрых случаях регулярки не подходят. Но если для одного сайта писать - то вполне...
0
871 / 721 / 304
Регистрация: 15.04.2013
Сообщений: 2,047
Записей в блоге: 5
22.07.2014, 16:59
Winhttp22,
Притом что vasiliyvasiliy, необходимо получить содержимое внутри тегов body
0
169 / 132 / 29
Регистрация: 16.02.2013
Сообщений: 867
22.07.2014, 19:11
XRoy, да, в таком случае возможно лучше использовать было бы dom parser. Но я всегда использую регулярки - правда у меня не такие задачи.
А спарсить текст между тегами body можно и регуляркой.

Не по теме:

dom parser регулярками парсит, или нет? :) Кстати - он полностью dom разбирает при парсинге?

0
871 / 721 / 304
Регистрация: 15.04.2013
Сообщений: 2,047
Записей в блоге: 5
22.07.2014, 20:03
Winhttp22,

Не по теме:


На сколько я знаю, при помощи грамматик парсят текст который потом пропускают через дерево.
Вот здесь хорошо описано.

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
22.07.2014, 20:03
Помогаю со студенческими работами здесь

Как отключить в броузере синенькую полосочку, где выводится то что заключено между тегами <title> и </title>?
А как отключить в броузере синенькую полосочку, где выводится то что заключено между тегами &lt;title&gt; и &lt;/title&gt;? Я слышал что...

Форматирование итемов в комбобокса между тегами <%data%></%data%>
Доброго дня. Гуру помогите с вопросом. В комбобоксе идут данные между тегами &lt;%data%&gt;&lt;/%data%&gt;, где %data% разные слова....

Парсинг текста между тегами <td> и </td>
На странице есть несколько сотен элементов, отбирающихся по селектору &quot;td.marketplace-table__item.marketplace-table__item--name&quot;. Мне...

Парсинг текста между тегами <td> и </td>
Решил написать программу для работы с базой. Достал html код в richTextBox1. Нужные мне значения находятся между тегами &lt;td&gt; и...

Удаление текста между тегами если в нем тег пустой
Доброго времени суток! Подскажите как удалить весь текст между тегами &lt;ZAP&gt; &lt;/ZAP&gt; вместе с тегами в xml, если между тегами...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru