Форум программистов, компьютерный форум, киберфорум
Visual Basic
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.56/9: Рейтинг темы: голосов - 9, средняя оценка - 4.56
Oleg

Как очистить HTML от мусора?

19.06.2008, 10:21. Показов 2016. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Помогите!!! Есть HTML-файл. Надо преобразовать его в текстовый.
Это можно сделать, если открыть IE и сказать сохранить как текст.
А как сделать эту работу автоматически?
Т.е. на входе несколько (много) файлов и надо все их переделать в текстовые.
Есть компонент HTMLView, но как с ним работать я не знаю.
И вообще можно ли с его помощью что либо сделать?
Заранее благодарен.
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
19.06.2008, 10:21
Ответы с готовыми решениями:

Очистить от html мусора
Как быстро в python3 почистить текст html от мусора оставив чистый текст? html2text?

Как очистить string от мусора
Всем привет. Подскажите пожалуйста, перед тем, как преобразовать string в int, мне нужно убрать мусор из строки. У меня вот такая...

Нужно очистить ПК от мусора
Здравствуйте! Работал за ПК, вдруг появились Амиго, Интернет, начались открываться браузеры и т.д. Прошу помочь.

4
0 / 0 / 0
Регистрация: 18.06.2008
Сообщений: 4
19.06.2008, 11:20
Можно поробовать regular expressions. К примеру, тэги table и br заменять на перевод строки, остальные же просто выкидывать, оставляя текст...
0
2 / 2 / 1
Регистрация: 30.07.2007
Сообщений: 206
23.06.2008, 01:06
Я делаю так. Есть исходный htm-текст со всеми тегами. Ты последовательно находишь через InStr знак меньше (<), затем знак больше (>) и удаляешь всю информацию, заключенную между этими тегами. Затем ты замечаешь, что остается 'пустая' информация, заключенная в теги скриптов или счетчиков. Вот сначала и надо удалять такую информацию, а потом вылавливать основной текст.
Я пользовался таким алгоритмом долгое время, но потом понял, что лучше всего сшить все файлы для обработки в один файл (через программу FAR), а затем действительно ВЫДЕЛИТЬ весь текст, СКОПИРОВАТЬ и вставить для дальнейшей обработки в любой текстовой редактор. Если нужен совет, пиши на bigsharig@mtu-net.ru
0
pl
51 / 17 / 6
Регистрация: 18.05.2007
Сообщений: 1,322
23.06.2008, 09:32
Пора заносить в FAQ

Code
1
2
3
4
5
6
7
8
Function RemoveTags(strng,tag)
    Dim regEx
    Set regEx = New RegExp
    regEx.Pattern = '(<'& tag &'[^>]*>)|(&[^;]*;)'
    regEx.IgnoreCase = True
    regEx.Global = True
    RemoveTags = regEx.Replace(strng,'')
End Function
вместо tag можно поставить '', тогда удаляется весь HTML.
0
Oleg
23.06.2008, 09:53
А кто-нибудь пробовал это сделать через IE, но только автоматически.
Скажем в васике вызвать объект IE и с ним поработать: открыть файл и сохранить как...
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
23.06.2008, 09:53
Помогаю со студенческими работами здесь

Очистить меню настроек системного трея от мусора
Сабж. Возьмем хоть пример с Proxyfier на принтскрине выше. Была использована когда-то портативная версиюя, потом удалена. А в...

Как очистить урл после .html
Пока сделал так if ($_SERVER!='/page.html'){ ?&gt;&lt;script&gt;window.location.assign(window.location.pathname);&lt;/script&gt;&lt;? } ...

Я сохраняю html как текст, а как txt очистить от тегов?
напр. в txt &lt;HTML&gt; ТУТ любой Текст &lt;/HTML&gt; должно получиться: Тут любоай текст

Регулярным выражением очистить ширину и высоту ячейки таблицы HTML
Что необходимо в теме поста написано, результатом регулярки столбец справа: &lt;td height=&quot;122&quot;&gt; &lt;td&gt; &lt;td...

Как избавиться от мусора в массиве?
Приветствую. Создаю массив на 256 байт: TCHAR szBuff; В консоли считываю в него символы, например: &quot;1234567890&quot; ...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Настройки VS Code
Loafer 13.04.2026
{ "cmake. configureOnOpen": false, "diffEditor. ignoreTrimWhitespace": true, "editor. guides. bracketPairs": "active", "extensions. ignoreRecommendations": true, . . .
Оптимизация кода на разграничение прав доступа к элементам формы
Maks 13.04.2026
Алгоритм из решения ниже реализован на нетиповом документе, разработанного в конфигурации КА2. Задачи, как таковой, поставлено не было, проделанное ниже исключительно моя инициатива. Было так:. . .
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru