Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.57/35: Рейтинг темы: голосов - 35, средняя оценка - 4.57
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295

Получить текст из документа HTML

06.03.2012, 17:19. Показов 7677. Ответов 19
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Всем добрый день!!! Подскажите как получить текст из документа html. В документе он начинается с тега <p>.
Допустим если на входе строка такого вида <p class=Title align=center style='text-align:center'>РОССИЙСКАЯ
ФЕДЕРАЦИЯ</p>

Делаю так:
C#
1
2
3
4
5
6
webBrowser1.Navigate(path);            
            
            foreach (HtmlElement he in webBrowser1.Document.GetElementsByTagName("p"))
            {
                MessageBox.Show(he.OuterHtml);
            }
Надо получить РОССИЙСКАЯ
ФЕДЕРАЦИЯ

Но MessageBox выдает<p class=Title align=center style='text-align:center'></p>

В чем ошибка?
Заранее спасибо!!!
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
06.03.2012, 17:19
Ответы с готовыми решениями:

Получить массив параграфов документа html
Добрый день! Нужно получить массив праграфов из документа Html средствами c#. Как это сделать?

Получить текст из документа по URL
Здравствуйте! Допустим есть ссылка &quot;http://sait.ru/text.txt&quot;, по этому адресу есть текст всего с одним-двумя словами. Задача программы...

Получить все сериалы из N страниц html документа
Продолжая развивать тему скрапа страниц из темы «https://www.cyberforum.ru/csharp-beginners/thread2551964.html» у меня получилось спарсить...

19
Эксперт Java
 Аватар для turbanoff
4094 / 3828 / 745
Регистрация: 18.05.2010
Сообщений: 9,331
Записей в блоге: 12
07.03.2012, 07:13
Скорее всего стоит заменить OuterHtml на что-то из: InnerHtml, InnerText
0
 Аватар для Димон_
136 / 104 / 9
Регистрация: 30.01.2011
Сообщений: 699
07.03.2012, 07:18
Ты берешь outerHtml, а надо обычный текст.Смотри методы, которые используешь
0
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
07.03.2012, 09:14  [ТС]
Цитата Сообщение от turbanoff Посмотреть сообщение
Скорее всего стоит заменить OuterHtml на что-то из: InnerHtml, InnerText
Все равно не получается. Может дело в кодировке?
0
Эксперт Java
 Аватар для turbanoff
4094 / 3828 / 745
Регистрация: 18.05.2010
Сообщений: 9,331
Записей в блоге: 12
07.03.2012, 09:30
Цитата Сообщение от SoloWay Посмотреть сообщение
Все равно не получается. Может дело в кодировке?
Вы покажите что они содержат.
0
 Аватар для Петррр
6721 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
08.03.2012, 11:44
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
using System;
using HtmlAgilityPack;
 
class Program
{
    static void Main(string[] args)
    {
        HtmlNode node = HtmlNode.CreateNode(
                @"<p class=Title align=center style='text-align:center'>" + 
                "РОССИЙСКАЯ ФЕДЕРАЦИЯ</p>");
        string innerText = node.InnerText;
        Console.WriteLine(innerText);
        /**
         * РОССИЙСКАЯ ФЕДЕРАЦИЯ
         */ 
    }
}
0
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
08.03.2012, 14:05  [ТС]
А если несколько документов и у них разное содержимое?
Пример в прикрепленном файле
Вложения
Тип файла: rar Файл.rar (514 байт, 24 просмотров)
0
 Аватар для Петррр
6721 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
08.03.2012, 14:19
SoloWay, что Вы имели ввиду?
0
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
08.03.2012, 14:26  [ТС]
Допустим документов несколько. Допустим в них по 10 строчек текста. Я знаю что структура их одинаковая. Мне необходимо вытягивать из этих документов текст. Как это сделать?
0
 Аватар для Mr_Ser_Win
45 / 44 / 7
Регистрация: 15.10.2008
Сообщений: 320
08.03.2012, 14:35
основной текст скорее всего находится в тегах span,div,p. находишь эти теги в своем хтмл (можно регексом) потом по показанной выше схеме обрабатываешь их
0
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
08.03.2012, 14:43  [ТС]
Текст находится тут @"<p class=Title align=center style='text-align:center'>" +
Текст тут </p>");
0
 Аватар для Петррр
6721 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
08.03.2012, 14:55
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
using System;
using System.Collections.Generic;
using HtmlAgilityPack;
 
class Program
{
    static void Main(string[] args)
    {
        HtmlDocument doc = new HtmlDocument();
        doc.Load("D:\\Файл.htm");
        IEnumerable<HtmlNode> pars = doc.DocumentNode.Descendants("p");
        foreach (HtmlNode p in pars)
            Console.WriteLine(p.InnerText);
        Console.ReadKey(true);
    }
}
1
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
08.03.2012, 20:32  [ТС]
C#
1
2
3
4
5
6
7
private void button1_Click(object sender, EventArgs e)
        {
          HAP.HtmlDocument doc = new HAP.HtmlDocument();
            doc.Load("D:\\641.htm");
            IEnumerable<HtmlNode> pars = doc.DocumentNode.Descendants("p");
            foreach (HtmlNode p in pars)
                richTextBox1.Text = p.InnerText;
Почему то этот код на выходе выдает &nbsp;

Добавлено через 1 час 7 минут
не читает кириллицу, как сделать чтоб читал?
0
 Аватар для Петррр
6721 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
08.03.2012, 21:57
&nbsp - это пробел в HTML. По Умолчанию браузер режет множество пробелов до одного. В таблицах в пустых ячейках рекомендуется ставить &nbsp что бы не возникало проблем с IE
0
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
10.03.2012, 14:42  [ТС]
Теперь заморока в том что не выводит в richtextbox кириллицу из html. Если текст документа на английском то выводит. Как быть?

Добавлено через 51 минуту
Проблему решил. Теперь необходимо создать массив тегов <p>. Как это сделать?
0
 Аватар для Петррр
6721 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
10.03.2012, 14:52
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
using System;
using System.Collections.Generic;
using HtmlAgilityPack;
 
class Program
{
    static void Main(string[] args)
    {
        HtmlNode[] paragraphs = new HtmlNode[10];
        HtmlDocument doc = new HtmlDocument();
        for (int i = 0; i < paragraphs.Length; i++)
        {
            paragraphs[i] = new HtmlNode(HtmlNodeType.Element, doc, i);
            paragraphs[i].Name = "p";
            paragraphs[i].InnerHtml = string.Format("я параграф #{0}", i + 1);
            doc.DocumentNode.ChildNodes.Add(paragraphs[i]);
        }
        IEnumerable<HtmlNode> _paragraphs = doc.DocumentNode.Descendants("p");
        foreach (HtmlNode node in _paragraphs)
            Console.WriteLine(node.InnerText);
        Console.ReadKey(true);
    }
}
2
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
10.03.2012, 15:51  [ТС]
Петрр огромное спасибо. Извините за дерзость а как теперь подставлять эти массивы в словосочетания.
Допустим у меня в документе содержатся названия цвета.

зеленая
синее
желтое

В MessageBox хочу выводить так
C#
1
2
foreach (HtmlNode node in paragraphs)
MessageBox.Show("Трава"+(зеленая));
0
107 / 107 / 9
Регистрация: 19.12.2010
Сообщений: 417
10.03.2012, 18:32
Может просто отбросить теги (чтобы получить текст) регулярными выражениями типа:
C#
1
htmltext = Regex.Replace(htmltext, @"\<.*?\>", "");
И декодировать HTML-коды:
C#
1
2
htmltext = HttpUtility.HtmlDecode(htmltext);
htmltext = HttpUtility.UrlDecode(htmltext);
Может так лучше и проще?

Цитата Сообщение от SoloWay Посмотреть сообщение
Извините за дерзость а как теперь подставлять эти массивы в словосочетания.
C#
1
node.InnerText
Не подходит в данном случае? Я имею ввиду:
C#
1
2
foreach (HtmlNode node in paragraphs)
    MessageBox.Show("Трава " + node.InnerText);
0
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
11.03.2012, 11:08  [ТС]
Но ведь InnerText берет весь текст, а мне нужно отдельные строки.

Добавлено через 1 час 13 минут
То есть доставать из массива индексы и вставлять в нужные места
0
107 / 107 / 9
Регистрация: 19.12.2010
Сообщений: 417
11.03.2012, 13:09
Не проверял, но...
Допустим, у вас уже есть нужный node, тогда что-то типа:
C#
1
2
3
4
5
var splitted = Regex.Split(node.InnerText, @"\n");
foreach (string str in splitted)
{
    MessageBox.Show("Трава " + str);
}
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
11.03.2012, 13:09
Помогаю со студенческими работами здесь

На оборотной стороне документа word в правой части документа, текст съезжает за границу документа
Добрый вечер. Есть код, который формирует документ из шаблона. И все вроде бы, но происходит что то непонятное. На оборотной стороне...

Как в Microsoft Visual Studio 2013 получить текст из документа по ссылке?
Допустим есть текстовый документ test.txt и он находится по адресу http://testsait.ru/test.txt. Нужно что бы при нажатии на кнопку в поле...

как получить текст Word-документа в HTML-виде
Всем привет! Подскажите, пожалуйста, как получить текст в HTML-виде с помощью макроса, если, конечно, такое возможно. Это нужно для...

Извлечь текст из div'а HTML-документа
Привет всем! Прошу помочь разобраться в проблеме: Парсится страница, нужный HTML-блок находится внутри тега ДИВа с конкретным именем. ...

Delphi - получить дату из HTML документа.
Здравствуйте, Как получить дату создания(редактирования) - веб-страницы, Внизу страницы находится строка (&quot;Последнее изменение этой...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Ответ Создать тему
Новые блоги и статьи
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten
8Observer8 27.02.2026
Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru