Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.94/18: Рейтинг темы: голосов - 18, средняя оценка - 4.94
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16

Очистить от html мусора

15.03.2018, 23:00. Показов 3599. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Как быстро в python3 почистить текст html от мусора оставив чистый текст?

html2text?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
15.03.2018, 23:00
Ответы с готовыми решениями:

Как очистить HTML от мусора?
Помогите!!! Есть HTML-файл. Надо преобразовать его в текстовый. Это можно сделать, если открыть IE и сказать сохранить как текст. А как...

Нужно очистить ПК от мусора
Здравствуйте! Работал за ПК, вдруг появились Амиго, Интернет, начались открываться браузеры и т.д. Прошу помочь.

Как очистить string от мусора
Всем привет. Подскажите пожалуйста, перед тем, как преобразовать string в int, мне нужно убрать мусор из строки. У меня вот такая...

4
 Аватар для Wi0M
395 / 123 / 48
Регистрация: 26.10.2013
Сообщений: 734
15.03.2018, 23:22
Python
1
2
3
4
import re
 
with open('source.html', 'r') as source, open('dest.txt', 'w') as dest:
    dest.write(re.sub(r'(\<(/?[^>]+)>)', '', source.read()))
1
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16
15.03.2018, 23:38  [ТС]
https://www.programcreek.com/p... .HTML2Text
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
16.03.2018, 01:35
Цитата Сообщение от IRIP Посмотреть сообщение
html2text?
Это html to markdown. Markdown он выдает шикарный, но если мы хотим голый текст, то даже отключив все настройки форматирования, все равно получим текст с привнесенными библиотекой символами.
Для получения raw текста нужно писать свой минипарсер, который не только все теги будет удалять (как в примере выше), но и предварительно удалять теги <script></script> c их ненужным содержимым, а также предварительно преобразовывать теги <br> в newline, чтобы получить поменьше склееного текста.
1
963 / 718 / 276
Регистрация: 10.12.2016
Сообщений: 1,764
16.03.2018, 04:15
Python
1
2
3
4
5
from lxml import html
doc = html.fromstring('''<html><body>text</body></html>''')
tree = doc.xpath('//*')
for i in tree:
    print(i.tag,i.attrib,i.text)
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
16.03.2018, 04:15
Помогаю со студенческими работами здесь

Как очистить файлы ресурсов от мусора?
Например, я нанес на форму IDC_EDIT1, потом переименовал его на IDC_EDIT2. В файлах ресурсов остается IDC_EDIT1 и IDC_EDIT2. При...

Очистить меню настроек системного трея от мусора
Сабж. Возьмем хоть пример с Proxyfier на принтскрине выше. Была использована когда-то портативная версиюя, потом удалена. А в...

Как очистить HTML MS Word 2003, чтобы HTML оставался рабочим
Имею таблицу MS Word 2003, нужно поднять ее в mysql. Напрямую никак, потому через HTML в MS Excel и из него в csv. HTML MS Word 2003 это...

Как очистить урл после .html
Пока сделал так if ($_SERVER!='/page.html'){ ?&gt;&lt;script&gt;window.location.assign(window.location.pathname);&lt;/script&gt;&lt;? } ...

Как очистить поля таблицы от html-тегов?
Всем доброго времени суток. Есть у меня таблица table, в ней поле description с типом данных text. Возможно ли как-то удалить только...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Обработчик клика мыши в браузере ПК и касания экрана в браузере на мобильном устройстве
8Observer8 02.02.2026
Содержание блога Для начала пошагово создадим рабочий пример для подготовки к экспериментам в браузере ПК и в браузере мобильного устройства. Потом напишем обработчик клика мыши и обработчик. . .
Философия технологии
iceja 01.02.2026
На мой взгляд у человека в технических проектах остается роль генерального директора. Все остальное нейронки делают уже лучше человека. Они не могут нести предпринимательские риски, не могут. . .
SDL3 для Web (WebAssembly): Вывод текста со шрифтом TTF с помощью SDL3_ttf
8Observer8 01.02.2026
Содержание блога В этой пошаговой инструкции создадим с нуля веб-приложение, которое выводит текст в окне браузера. Запустим на Android на локальном сервере. Загрузим Release на бесплатный. . .
SDL3 для Web (WebAssembly): Сборка C/C++ проекта из консоли
8Observer8 30.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
SDL3 для Web (WebAssembly): Установка Emscripten SDK (emsdk) и CMake для сборки C и C++ приложений в Wasm
8Observer8 30.01.2026
Содержание блога Для того чтобы скачать Emscripten SDK (emsdk) необходимо сначало скачать и уставить Git: Install for Windows. Следуйте стандартной процедуре установки Git через установщик. . . .
SDL3 для Android: Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 29.01.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами. Версия v3 была полностью переписана на Си, в. . .
Инструменты COM: Сохранение данный из VARIANT в файл и загрузка из файла в VARIANT
bedvit 28.01.2026
Сохранение базовых типов COM и массивов (одномерных или двухмерных) любой вложенности (деревья) в файл, с возможностью выбора алгоритмов сжатия и шифрования. Часть библиотеки BedvitCOM Использованы. . .
SDL3 для Android: Загрузка PNG с альфа-каналом с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 28.01.2026
Содержание блога SDL3 имеет собственные средства для загрузки и отображения PNG-файлов с альфа-каналом и базовой работы с ними. В этой инструкции используется функция SDL_LoadPNG(), которая. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru