1 / 1 / 2
Регистрация: 15.08.2017
Сообщений: 81

Удалить теги из текста (парсинг html)

06.11.2017, 00:59. Показов 4603. Ответов 10
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
И снова доброго времени суток дорогие программисты!
Опишу суть вопроса:
через функцию:
Code
1
Memo2->Lines->Add(IdHTTP1->Get("http://pravmir.com.ua"));
Спарсил страницу в Memo1
Хочу удалить все теги и оставить только текст
пытался сделать поиск-заменой, но каждый тег может содержать стили и подключение скриптов
может кто подскажет, как очистить текст от тегов

Спасибо большое на перед!
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
06.11.2017, 00:59
Ответы с готовыми решениями:

В поле RichEdit удалить html-теги; при вставке в RichEdit замена старого текста на новый
Всем привет! помогите пожалуйста с написание кода на две процедуры : - В поле RichEdit удалить html-теги; - при вставке в RichEdit...

Удалить пустые теги html
Вывожу из БД текст echo $activity->description В конце могут содержаться пустые теги: <p> </p> Как от них...

Удалить теги html через регулярку
Как удалить все html теги в строчке через регулярное выражение?

10
place status here
 Аватар для gunslinger
3190 / 2226 / 640
Регистрация: 20.07.2013
Сообщений: 6,022
06.11.2017, 01:33
Думаю, такое вряд ли можно сделать простым способом.
0
 Аватар для lifeforce
266 / 211 / 89
Регистрация: 27.09.2010
Сообщений: 1,234
06.11.2017, 09:20
дно21,
Я сейчас точно этим и занимаюсь для моей программы вывода таблицы уровней сигнала.
Для твоей задачи можно пойти напрямую.
сканирование всего текста по символу и сравнивать с адресом от допустимых знаков до Я , и заменять все не входящие знаки - пустым местом (или пробелом потом еще надо заменить все пробелы на один ).
в итоге получится только текст слитый в одну строку . т.к. используешь компонент Мемо то он сам распределит текст по строкам.
Функцию для символов можешь взять из прошлой темы, Переделка с консоли в форму - C++ Builder от volvo

Ааааа..... volvo удалил свое решение?
0
1 / 1 / 2
Регистрация: 15.08.2017
Сообщений: 81
06.11.2017, 20:14  [ТС]
Привет)
В тексте могут быть важные символы и цифры, которые может задеть фильтр)
Лучше всего убирать теги по принципу: все что "<и между данными знаками>"
нашел такой исходник от zitxbit:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
#include <iostream>
#include <fstream>
 
#include <string>
 
using namespace std;
 
int main()
{
    const char* filename = "index.html";
    ifstream ifs(filename, ifstream::in);
 
    string text = "";
    char ch = '\0'; bool b = false;
    while (ifs.peek() >= 0 && (ch = ifs.get()))
    {
        if (ch == '>') b = true;
        if (b != false)
        {
            if (ch != '<' && ch != '>')
                text+=ch;
        }
        if (ch == '<') b = false;
    }
 
    cout << text << endl;
 
    return 0;
}
Добавлено через 43 минуты
Вот, работает, переписал вывод:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
 const char* filename = "indi.html";
    ifstream ifs(filename, ifstream::in);
 
    string text = "";
    char ch = '\0'; bool b = false;
    while (ifs.peek() >= 0 && (ch = ifs.get()))
    {
        if (ch == '>') b = true;
        if (b != false)
        {
            if (ch != '<' && ch != '>')
                text+=ch;
        }
        if (ch == '<') b = false;
    }
 
    //cout << text << endl;
     Form1->Memo1->Lines->Add(String(text.c_str()));
     //Form1->Memo1->Text=Utf8ToAnsi(Memo1->Text);
    return ;
Весь текст из Memo2 пишу в файл, потом переганяю через данную функцию и вывожу в Memo1
Наверное жесткий костыль, но все же он работает)
Осталось придумать как текст скриптов удалить)
0
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33395 / 21505 / 8236
Регистрация: 22.10.2011
Сообщений: 36,901
Записей в блоге: 12
06.11.2017, 20:17
Можно на пример файла посмотреть, насколько он сложный? Есть подозрение, что для не слишком сложных файлов можно воспользоваться регуляркой, что будет гораздо эффективнее, чем в цикле сверять каждый символ.

Добавлено через 37 секунд
Цитата Сообщение от lifeforce Посмотреть сообщение
volvo удалил свое решение?
Я в той теме свое решение и не выкладывал...
0
1 / 1 / 2
Регистрация: 15.08.2017
Сообщений: 81
06.11.2017, 20:21  [ТС]
Держи: ссылка на файл
0
place status here
 Аватар для gunslinger
3190 / 2226 / 640
Регистрация: 20.07.2013
Сообщений: 6,022
06.11.2017, 20:34
Ссылка на страницу есть в первом посте.
0
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33395 / 21505 / 8236
Регистрация: 22.10.2011
Сообщений: 36,901
Записей в блоге: 12
06.11.2017, 22:04
Лучший ответ Сообщение было отмечено volvo как решение

Решение

C++
1
2
3
4
5
6
7
8
9
10
11
12
    String s = IdHTTP1->Get("http://pravmir.com.ua/");
 
    std::auto_ptr<TRegExpr>re(new TRegExpr); // #include <memory>
    re->Expression = "<(style|script)[^<]*</\\1>";
    s = re->Replace(s, "", false);
 
    re->Expression = "<[^>]*>";
    s = re->Replace(s, "", false);
 
    re->Expression = "\\s\\s+";
    s = re->Replace(s, "\r\n", false);
    Memo1->Text = s;
прекрасно удаляет все теги, оставляет только чистый текст. Если опять будет
Цитата Сообщение от viramir Посмотреть сообщение
auto_ptr is not member of std
- то создай по старинке:
C++
1
2
3
TRegExpr *re = new TRegExpr();
// тут работа с re
delete re;
, хотя, насколько я помню, в BCB6 вполне себе использовалось auto_ptr, если подключить нужный файл...
0
1 / 1 / 2
Регистрация: 15.08.2017
Сообщений: 81
06.11.2017, 22:47  [ТС]
[bcc32 Error] Unit1.cpp(1313): E2451 Undefined symbol 'TRegExpr'
Full parser context
Unit1.cpp(1308): parsing: void _fastcall TForm1::Button20Click(TObject *)

[bcc32 Error] Unit1.cpp(1313): E2299 Cannot generate template specialization from 'auto_ptr<_Ty>'
Full parser context
Unit1.cpp(1308): parsing: void _fastcall TForm1::Button20Click(TObject *)

две ошибки, сейчас пишу в C++Builder 10.2

volvo извини за мою тупость(
0
Супер-модератор
Эксперт Pascal/DelphiАвтор FAQ
 Аватар для volvo
33395 / 21505 / 8236
Регистрация: 22.10.2011
Сообщений: 36,901
Записей в блоге: 12
06.11.2017, 22:57
Лучший ответ Сообщение было отмечено volvo как решение

Решение

Я использую сторонний компонент. Просто скачай архив, положи pas-файл в папку с проектом, добавь его к проекту в Project Manager-е, добавь строку
C++
1
#include "RegExpr.hpp"
и пересобери проект.
0
1 / 1 / 2
Регистрация: 15.08.2017
Сообщений: 81
06.11.2017, 23:24  [ТС]
volvo ты гений!
спасибо огромное тебе что помогаешь!
0
Ответ Создать тему
Опции темы

Новые блоги и статьи
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 11.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru