1 / 1 / 0
Регистрация: 05.06.2014
Сообщений: 14
1

Поиск текста между тегами

22.07.2014, 14:48. Показов 6768. Ответов 8
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Здравствуйте!
В общем задачка вот какая. Программа идет на один сайт и берет оттуда HTML код.
Код на подобии:

HTML5
1
2
3
4
<title>Какой то текст</title>
<body>
Ещё какой то текст
<body>
Ну так вот. Для того, что бы вытащить текст между тегами <title> и </title> я использовал следующий код:

C#
1
2
3
4
var webClient = new System.Net.WebClient();
string URL = "http://site.ru";
string HTML = webClient.DownloadString(URL);
string match = Regex.Match(HTML, "<title>(.*)</title>").ToString();
В результате значение match у меня приобретало вид: <title>Какой то текст</title> (Это не страшно!).

Но вот когда я попытался использовать этот же код для взятия текста между тегами <body> и </body> то у меня значение match было пустым. Я думаю это как то связано с тем, что они в разных строках находятся. Что с этим делать? Как сделать так, что бы выводило текст между тегами <body> и </body> ?

Заранее спасибо за помощь!
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
22.07.2014, 14:48
Ответы с готовыми решениями:

Поиск текста между символами в тексте
Здравствуйте мне нужно из кода страницы взятого с браузера, найти все строки между символами и...

Регулярные выражения. Извлечь из html текст между двумя тегами
Ломаю голову с регулярными выражениями, не получается корректно решить простую задачу: Нужно...

Получить весь текст HTML-страницы, который находится между тегами, кроме заголовка
Здравствуйте, возникла задача отпарсить html. Конкретно, взять весь текст, который находится между...

Как отключить в броузере синенькую полосочку, где выводится то что заключено между тегами <title> и </title>?
А как отключить в броузере синенькую полосочку, где выводится то что заключено между тегами &lt;title&gt;...

8
870 / 720 / 304
Регистрация: 15.04.2013
Сообщений: 2,047
Записей в блоге: 5
22.07.2014, 15:25 2
Никогда не парсите HTML регулярными выражениями они не предназначены для этого. Используйте DOM-парсер, к примеру Html Agility Pack.
0
168 / 131 / 29
Регистрация: 16.02.2013
Сообщений: 867
22.07.2014, 16:02 3
Цитата Сообщение от XRoy Посмотреть сообщение
они не предназначены для этого
почему это не предназначены?

Как то так -
C#
1
2
3
4
5
var webClient = new System.Net.WebClient();
string URL = "http://site.ru";
string HTML = webClient.DownloadString(URL);
Match match = Regex.Match(HTML, "<title>(.*)</title>");
string result=match.Success ? match.Groups[1].Value : "Не найдено";
1
870 / 720 / 304
Регистрация: 15.04.2013
Сообщений: 2,047
Записей в блоге: 5
22.07.2014, 16:11 4
Winhttp22,
Это вам повезло, но к примеру может быть записано так:
HTML5
1
2
3
<title>
             Какой-то текст
   </title>
Кроме того body может иметь атрибуты, так что лучшим вариантом будет использовать DOM парсер.
0
2443 / 1841 / 406
Регистрация: 15.12.2013
Сообщений: 8,239
22.07.2014, 16:40 5
vasiliyvasiliy, точка в регулярных выражениях это любой символ кроме новой строки,надо просто учесть,что может быть и новая строка тоже.
0
168 / 131 / 29
Регистрация: 16.02.2013
Сообщений: 867
22.07.2014, 16:51 6
Цитата Сообщение от XRoy Посмотреть сообщение
Это вам повезло, но к примеру может быть записано так:
ну тогда так -
C#
1
2
3
4
5
6
7
8
string HTML = @"<title> 
                        Какой-то текст.         
        </title>";
            Console.WriteLine(HTML);
        Match match = Regex.Match(HTML, @"<title>.*?(\w.*)\s*</title>",RegexOptions.Singleline);
        string result=match.Success ? match.Groups[1].Value : "Не найдено";
        Console.WriteLine("result = {0}",result);
        Console.ReadKey();
Цитата Сообщение от XRoy Посмотреть сообщение
body
а это причем тут?
Согласен - в некотрых случаях регулярки не подходят. Но если для одного сайта писать - то вполне...
0
870 / 720 / 304
Регистрация: 15.04.2013
Сообщений: 2,047
Записей в блоге: 5
22.07.2014, 16:59 7
Winhttp22,
Притом что vasiliyvasiliy, необходимо получить содержимое внутри тегов body
0
168 / 131 / 29
Регистрация: 16.02.2013
Сообщений: 867
22.07.2014, 19:11 8
XRoy, да, в таком случае возможно лучше использовать было бы dom parser. Но я всегда использую регулярки - правда у меня не такие задачи.
А спарсить текст между тегами body можно и регуляркой.

Не по теме:

dom parser регулярками парсит, или нет? :) Кстати - он полностью dom разбирает при парсинге?

0
870 / 720 / 304
Регистрация: 15.04.2013
Сообщений: 2,047
Записей в блоге: 5
22.07.2014, 20:03 9
Winhttp22,

Не по теме:


На сколько я знаю, при помощи грамматик парсят текст который потом пропускают через дерево.
Вот здесь хорошо описано.

0
22.07.2014, 20:03
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
22.07.2014, 20:03
Помогаю со студенческими работами здесь

Форматирование итемов в комбобокса между тегами <%data%></%data%>
Доброго дня. Гуру помогите с вопросом. В комбобоксе идут данные между тегами &lt;%data%&gt;&lt;/%data%&gt;, где...

Парсинг текста между тегами <td> и </td>
На странице есть несколько сотен элементов, отбирающихся по селектору...

Парсинг текста между тегами <td> и </td>
Решил написать программу для работы с базой. Достал html код в richTextBox1. Нужные мне значения...

Удаление текста между тегами если в нем тег пустой
Доброго времени суток! Подскажите как удалить весь текст между тегами &lt;ZAP&gt; &lt;/ZAP&gt; вместе с тегами...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru