Форум программистов, компьютерный форум, киберфорум
C++ Builder
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/21: Рейтинг темы: голосов - 21, средняя оценка - 4.67
1 / 1 / 2
Регистрация: 15.08.2017
Сообщений: 81

Удалить теги из текста (парсинг html)

06.11.2017, 00:59. Показов 4584. Ответов 10
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
И снова доброго времени суток дорогие программисты!
Опишу суть вопроса:
через функцию:
Code
1
Memo2->Lines->Add(IdHTTP1->Get("http://pravmir.com.ua"));
Спарсил страницу в Memo1
Хочу удалить все теги и оставить только текст
пытался сделать поиск-заменой, но каждый тег может содержать стили и подключение скриптов
может кто подскажет, как очистить текст от тегов

Спасибо большое на перед!
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
06.11.2017, 00:59
Ответы с готовыми решениями:

В поле RichEdit удалить html-теги; при вставке в RichEdit замена старого текста на новый
Всем привет! помогите пожалуйста с написание кода на две процедуры : - В поле RichEdit удалить html-теги; - при вставке в RichEdit...

Удалить пустые теги html
Вывожу из БД текст echo $activity->description В конце могут содержаться пустые теги: <p> </p> Как от них...

Удалить теги html через регулярку
Как удалить все html теги в строчке через регулярное выражение?

10
place status here
 Аватар для gunslinger
3186 / 2220 / 640
Регистрация: 20.07.2013
Сообщений: 6,014
06.11.2017, 01:33
Думаю, такое вряд ли можно сделать простым способом.
0
 Аватар для lifeforce
266 / 211 / 89
Регистрация: 27.09.2010
Сообщений: 1,234
06.11.2017, 09:20
дно21,
Я сейчас точно этим и занимаюсь для моей программы вывода таблицы уровней сигнала.
Для твоей задачи можно пойти напрямую.
сканирование всего текста по символу и сравнивать с адресом от допустимых знаков до Я , и заменять все не входящие знаки - пустым местом (или пробелом потом еще надо заменить все пробелы на один ).
в итоге получится только текст слитый в одну строку . т.к. используешь компонент Мемо то он сам распределит текст по строкам.
Функцию для символов можешь взять из прошлой темы, Переделка с консоли в форму - C++ Builder от volvo

Ааааа..... volvo удалил свое решение?
0
1 / 1 / 2
Регистрация: 15.08.2017
Сообщений: 81
06.11.2017, 20:14  [ТС]
Привет)
В тексте могут быть важные символы и цифры, которые может задеть фильтр)
Лучше всего убирать теги по принципу: все что "<и между данными знаками>"
нашел такой исходник от zitxbit:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
#include <iostream>
#include <fstream>
 
#include <string>
 
using namespace std;
 
int main()
{
    const char* filename = "index.html";
    ifstream ifs(filename, ifstream::in);
 
    string text = "";
    char ch = '\0'; bool b = false;
    while (ifs.peek() >= 0 && (ch = ifs.get()))
    {
        if (ch == '>') b = true;
        if (b != false)
        {
            if (ch != '<' && ch != '>')
                text+=ch;
        }
        if (ch == '<') b = false;
    }
 
    cout << text << endl;
 
    return 0;
}
Добавлено через 43 минуты
Вот, работает, переписал вывод:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
 const char* filename = "indi.html";
    ifstream ifs(filename, ifstream::in);
 
    string text = "";
    char ch = '\0'; bool b = false;
    while (ifs.peek() >= 0 && (ch = ifs.get()))
    {
        if (ch == '>') b = true;
        if (b != false)
        {
            if (ch != '<' && ch != '>')
                text+=ch;
        }
        if (ch == '<') b = false;
    }
 
    //cout << text << endl;
     Form1->Memo1->Lines->Add(String(text.c_str()));
     //Form1->Memo1->Text=Utf8ToAnsi(Memo1->Text);
    return ;
Весь текст из Memo2 пишу в файл, потом переганяю через данную функцию и вывожу в Memo1
Наверное жесткий костыль, но все же он работает)
Осталось придумать как текст скриптов удалить)
0
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33376 / 21500 / 8236
Регистрация: 22.10.2011
Сообщений: 36,896
Записей в блоге: 11
06.11.2017, 20:17
Можно на пример файла посмотреть, насколько он сложный? Есть подозрение, что для не слишком сложных файлов можно воспользоваться регуляркой, что будет гораздо эффективнее, чем в цикле сверять каждый символ.

Добавлено через 37 секунд
Цитата Сообщение от lifeforce Посмотреть сообщение
volvo удалил свое решение?
Я в той теме свое решение и не выкладывал...
0
1 / 1 / 2
Регистрация: 15.08.2017
Сообщений: 81
06.11.2017, 20:21  [ТС]
Держи: ссылка на файл
0
place status here
 Аватар для gunslinger
3186 / 2220 / 640
Регистрация: 20.07.2013
Сообщений: 6,014
06.11.2017, 20:34
Ссылка на страницу есть в первом посте.
0
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33376 / 21500 / 8236
Регистрация: 22.10.2011
Сообщений: 36,896
Записей в блоге: 11
06.11.2017, 22:04
Лучший ответ Сообщение было отмечено volvo как решение

Решение

C++
1
2
3
4
5
6
7
8
9
10
11
12
    String s = IdHTTP1->Get("http://pravmir.com.ua/");
 
    std::auto_ptr<TRegExpr>re(new TRegExpr); // #include <memory>
    re->Expression = "<(style|script)[^<]*</\\1>";
    s = re->Replace(s, "", false);
 
    re->Expression = "<[^>]*>";
    s = re->Replace(s, "", false);
 
    re->Expression = "\\s\\s+";
    s = re->Replace(s, "\r\n", false);
    Memo1->Text = s;
прекрасно удаляет все теги, оставляет только чистый текст. Если опять будет
Цитата Сообщение от viramir Посмотреть сообщение
auto_ptr is not member of std
- то создай по старинке:
C++
1
2
3
TRegExpr *re = new TRegExpr();
// тут работа с re
delete re;
, хотя, насколько я помню, в BCB6 вполне себе использовалось auto_ptr, если подключить нужный файл...
0
1 / 1 / 2
Регистрация: 15.08.2017
Сообщений: 81
06.11.2017, 22:47  [ТС]
[bcc32 Error] Unit1.cpp(1313): E2451 Undefined symbol 'TRegExpr'
Full parser context
Unit1.cpp(1308): parsing: void _fastcall TForm1::Button20Click(TObject *)

[bcc32 Error] Unit1.cpp(1313): E2299 Cannot generate template specialization from 'auto_ptr<_Ty>'
Full parser context
Unit1.cpp(1308): parsing: void _fastcall TForm1::Button20Click(TObject *)

две ошибки, сейчас пишу в C++Builder 10.2

volvo извини за мою тупость(
0
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33376 / 21500 / 8236
Регистрация: 22.10.2011
Сообщений: 36,896
Записей в блоге: 11
06.11.2017, 22:57
Лучший ответ Сообщение было отмечено volvo как решение

Решение

Я использую сторонний компонент. Просто скачай архив, положи pas-файл в папку с проектом, добавь его к проекту в Project Manager-е, добавь строку
C++
1
#include "RegExpr.hpp"
и пересобери проект.
0
1 / 1 / 2
Регистрация: 15.08.2017
Сообщений: 81
06.11.2017, 23:24  [ТС]
volvo ты гений!
спасибо огромное тебе что помогаешь!
0
Ответ Создать тему
Новые блоги и статьи
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
Загрузка PNG с альфа-каналом на SDL3 для Android: с помощью SDL3_image
8Observer8 27.01.2026
Содержание блога SDL3_image - это библиотека для загрузки и работы с изображениями. Эта пошаговая инструкция покажет, как загрузить и вывести на экран смартфона картинку с альфа-каналом, то есть с. . .
Влияние грибов на сукцессию
anaschu 26.01.2026
Бифуркационные изменения массы гриба происходят тогда, когда мы уменьшаем массу компоста в 10 раз, а скорость прироста биомассы уменьшаем в три раза. Скорость прироста биомассы может уменьшаться за. . .
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip" Извлеките архив и вы увидите. . .
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д. Сборка примера Скачайте. . .
Использование SDL3-callbacks вместо функции main() на Android, Desktop и WebAssembly
8Observer8 24.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru