Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.94/18: Рейтинг темы: голосов - 18, средняя оценка - 4.94
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16

Очистить от html мусора

15.03.2018, 23:00. Показов 3632. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Как быстро в python3 почистить текст html от мусора оставив чистый текст?

html2text?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
15.03.2018, 23:00
Ответы с готовыми решениями:

Как очистить HTML от мусора?
Помогите!!! Есть HTML-файл. Надо преобразовать его в текстовый. Это можно сделать, если открыть IE и сказать сохранить как текст. А как...

Нужно очистить ПК от мусора
Здравствуйте! Работал за ПК, вдруг появились Амиго, Интернет, начались открываться браузеры и т.д. Прошу помочь.

Как очистить string от мусора
Всем привет. Подскажите пожалуйста, перед тем, как преобразовать string в int, мне нужно убрать мусор из строки. У меня вот такая...

4
 Аватар для Wi0M
395 / 123 / 48
Регистрация: 26.10.2013
Сообщений: 734
15.03.2018, 23:22
Python
1
2
3
4
import re
 
with open('source.html', 'r') as source, open('dest.txt', 'w') as dest:
    dest.write(re.sub(r'(\<(/?[^>]+)>)', '', source.read()))
1
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16
15.03.2018, 23:38  [ТС]
https://www.programcreek.com/p... .HTML2Text
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
16.03.2018, 01:35
Цитата Сообщение от IRIP Посмотреть сообщение
html2text?
Это html to markdown. Markdown он выдает шикарный, но если мы хотим голый текст, то даже отключив все настройки форматирования, все равно получим текст с привнесенными библиотекой символами.
Для получения raw текста нужно писать свой минипарсер, который не только все теги будет удалять (как в примере выше), но и предварительно удалять теги <script></script> c их ненужным содержимым, а также предварительно преобразовывать теги <br> в newline, чтобы получить поменьше склееного текста.
1
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
16.03.2018, 04:15
Python
1
2
3
4
5
from lxml import html
doc = html.fromstring('''<html><body>text</body></html>''')
tree = doc.xpath('//*')
for i in tree:
    print(i.tag,i.attrib,i.text)
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
16.03.2018, 04:15
Помогаю со студенческими работами здесь

Как очистить файлы ресурсов от мусора?
Например, я нанес на форму IDC_EDIT1, потом переименовал его на IDC_EDIT2. В файлах ресурсов остается IDC_EDIT1 и IDC_EDIT2. При...

Очистить меню настроек системного трея от мусора
Сабж. Возьмем хоть пример с Proxyfier на принтскрине выше. Была использована когда-то портативная версиюя, потом удалена. А в...

Как очистить HTML MS Word 2003, чтобы HTML оставался рабочим
Имею таблицу MS Word 2003, нужно поднять ее в mysql. Напрямую никак, потому через HTML в MS Excel и из него в csv. HTML MS Word 2003 это...

Как очистить урл после .html
Пока сделал так if ($_SERVER!='/page.html'){ ?&gt;&lt;script&gt;window.location.assign(window.location.pathname);&lt;/script&gt;&lt;? } ...

Как очистить поля таблицы от html-тегов?
Всем доброго времени суток. Есть у меня таблица table, в ней поле description с типом данных text. Возможно ли как-то удалить только...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
Оптимизация кода на разграничение прав доступа к элементам формы
Maks 13.04.2026
Алгоритм из решения ниже реализован на нетиповом документе, разработанного в конфигурации КА2. Задачи, как таковой, поставлено не было, проделанное ниже исключительно моя инициатива. Было так:. . .
Контроль заполнения и очистка дат в зависимости от значения перечислений
Maks 12.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .
Архитектура слоя интернета для сервера-слоя.
Hrethgir 11.04.2026
В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .
Подстановка значения реквизита справочника в табличную часть документа
Maks 10.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .
Очистка реквизитов документа при копировании
Maks 09.04.2026
Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .
модель ЗдравоСохранения 8. Подготовка к разному выполнению заданий
anaschu 08.04.2026
https:/ / github. com/ shumilovas/ med2. git main ветка * содержимое блока дэлэй из старой модели теперь внутри зайца новой модели 8ATzM_2aurI
Блокировка документа от изменений, если он открыт у другого пользователя
Maks 08.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа, разработанного в конфигурации КА2. Задача: запретить редактирование документа, если он открыт у другого пользователя. / / . . .
Система безопасности+живучести для сервера-слоя интернета (сети). Двойная привязка.
Hrethgir 08.04.2026
Далее были размышления о системе безопасности. Сообщения с наклонным текстом - мои. А как нам будет можно проверить, что ссылка наша, а не подделана хулиганами, которая выбросит на другую ветку и. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru