|
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
|
||||||
Получить текст из документа HTML06.03.2012, 17:19. Показов 7677. Ответов 19
Метки нет (Все метки)
Всем добрый день!!! Подскажите как получить текст из документа html. В документе он начинается с тега <p>.
Допустим если на входе строка такого вида <p class=Title align=center style='text-align:center'>РОССИЙСКАЯ ФЕДЕРАЦИЯ</p> Делаю так:
ФЕДЕРАЦИЯ Но MessageBox выдает<p class=Title align=center style='text-align:center'></p> В чем ошибка? Заранее спасибо!!!
0
|
||||||
| 06.03.2012, 17:19 | |
|
Ответы с готовыми решениями:
19
Получить массив параграфов документа html
|
|
136 / 104 / 9
Регистрация: 30.01.2011
Сообщений: 699
|
|
| 07.03.2012, 07:18 | |
|
Ты берешь outerHtml, а надо обычный текст.Смотри методы, которые используешь
0
|
|
|
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
|
|
| 07.03.2012, 09:14 [ТС] | |
|
0
|
|
|
6721 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
|
||||||
| 08.03.2012, 11:44 | ||||||
0
|
||||||
|
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
|
|
| 08.03.2012, 14:05 [ТС] | |
|
А если несколько документов и у них разное содержимое?
Пример в прикрепленном файле
0
|
|
|
6721 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
|
|
| 08.03.2012, 14:19 | |
|
SoloWay, что Вы имели ввиду?
0
|
|
|
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
|
|
| 08.03.2012, 14:26 [ТС] | |
|
Допустим документов несколько. Допустим в них по 10 строчек текста. Я знаю что структура их одинаковая. Мне необходимо вытягивать из этих документов текст. Как это сделать?
0
|
|
|
45 / 44 / 7
Регистрация: 15.10.2008
Сообщений: 320
|
|
| 08.03.2012, 14:35 | |
|
основной текст скорее всего находится в тегах span,div,p. находишь эти теги в своем хтмл (можно регексом) потом по показанной выше схеме обрабатываешь их
0
|
|
|
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
|
|
| 08.03.2012, 14:43 [ТС] | |
|
Текст находится тут @"<p class=Title align=center style='text-align:center'>" +
Текст тут </p>");
0
|
|
|
6721 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
|
||||||
| 08.03.2012, 14:55 | ||||||
1
|
||||||
|
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
|
||||||
| 08.03.2012, 20:32 [ТС] | ||||||
Добавлено через 1 час 7 минут не читает кириллицу, как сделать чтоб читал?
0
|
||||||
|
6721 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
|
|
| 08.03.2012, 21:57 | |
|
  - это пробел в HTML. По Умолчанию браузер режет множество пробелов до одного. В таблицах в пустых ячейках рекомендуется ставить   что бы не возникало проблем с IE
0
|
|
|
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
|
|
| 10.03.2012, 14:42 [ТС] | |
|
Теперь заморока в том что не выводит в richtextbox кириллицу из html. Если текст документа на английском то выводит. Как быть?
Добавлено через 51 минуту Проблему решил. Теперь необходимо создать массив тегов <p>. Как это сделать?
0
|
|
|
6721 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
|
||||||
| 10.03.2012, 14:52 | ||||||
2
|
||||||
|
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
|
||||||
| 10.03.2012, 15:51 [ТС] | ||||||
|
Петрр огромное спасибо. Извините за дерзость а как теперь подставлять эти массивы в словосочетания.
Допустим у меня в документе содержатся названия цвета. зеленая синее желтое В MessageBox хочу выводить так
0
|
||||||
|
107 / 107 / 9
Регистрация: 19.12.2010
Сообщений: 417
|
||||||||||||||||||||||
| 10.03.2012, 18:32 | ||||||||||||||||||||||
|
Может просто отбросить теги (чтобы получить текст) регулярными выражениями типа:
0
|
||||||||||||||||||||||
|
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
|
|
| 11.03.2012, 11:08 [ТС] | |
|
Но ведь InnerText берет весь текст, а мне нужно отдельные строки.
Добавлено через 1 час 13 минут То есть доставать из массива индексы и вставлять в нужные места
0
|
|
|
107 / 107 / 9
Регистрация: 19.12.2010
Сообщений: 417
|
||||||
| 11.03.2012, 13:09 | ||||||
|
Не проверял, но...
Допустим, у вас уже есть нужный node, тогда что-то типа:
1
|
||||||
| 11.03.2012, 13:09 | |
|
Помогаю со студенческими работами здесь
20
На оборотной стороне документа word в правой части документа, текст съезжает за границу документа
как получить текст Word-документа в HTML-виде Извлечь текст из div'а HTML-документа Delphi - получить дату из HTML документа. Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает
монорепозиторий в котором находятся все исходники.
При создании нового решения, мы просто добавляем нужные проекты
и имеем. . .
|
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение:
В этой книге («Подход, основанный на вариантах использования») Ивар утверждает,
что архитектура программного обеспечения — это
структуры,. . .
|
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога
Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
|
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога
Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip
На первой гифке отладочные линии отключены, а на второй включены:. . .
|
|
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога
Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем.
. . .
|
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
|
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
|
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten
8Observer8 27.02.2026
Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .
|