С Новым годом! Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/3: Рейтинг темы: голосов - 3, средняя оценка - 4.67
1711 / 578 / 76
Регистрация: 10.04.2009
Сообщений: 9,305

Читать .htm файлы как текстовые файлы

24.10.2023, 15:40. Показов 698. Ответов 11
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
здравствуйте как проще это делается без парсинга=откидывания тегов
типа скопировать файл сменить расширение считать и удалить
спасибо
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
24.10.2023, 15:40
Ответы с готовыми решениями:

На простеньком примере объясните как считывать текстовые файлы
допустим в входном файле(input.in) содержится два числа а и б мы присваиваем эти значения переменным а и б. в выходной файл(output.out)...

Перестало открывать и читать файлы
Работало все нормально щас буквально тока что перестало файлы открывать и читать from os import * def Readfile(): fname =...

Текстовые файлы
Не получается решить задачку :Дан текстовый файл.подсчитсть число появлений в нем каждой строчной (то есть маленькой) русской буквы и...

11
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
24.10.2023, 16:07
Ципихович Эндрю, хтмл это обычный текстовый файл, открывай и читай, в чем вопрос?
0
1711 / 578 / 76
Регистрация: 10.04.2009
Сообщений: 9,305
24.10.2023, 16:38  [ТС]
Welemir1, пока спорить не буду-ПК занят))
но когда в коде:
Python
1
2
3
    if os.path.isfile(f'{patch_doc}/{file}') and file.endswith('.htm'):
        with open(patch_doc + file, 'r', encoding='utf-8') as f_in:  # исходные документы htm
            txt_htm += f_in.read() + '\n'
при отладке наводил курсор на переменную txt_htm то видел, что туда валится текст с тегами, мне они нафиг не нужны в моём случае......
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
24.10.2023, 16:55
Ципихович Эндрю, ты задачу опиши тогда нормально, бедолага.
Цитата Сообщение от Ципихович Эндрю Посмотреть сообщение
Читать .htm файлы как текстовые файлы
вот что ты написал. Читать хтмл файл можно, также как и любые. Но конечно в нем останутся все теги. Еслми он тебе нужен без тегов то в любом случаем надо как то обработать контент. И зачем тебе он без тегов?
0
1711 / 578 / 76
Регистрация: 10.04.2009
Сообщений: 9,305
24.10.2023, 17:35  [ТС]
Цитата Сообщение от Welemir1 Посмотреть сообщение
И зачем тебе он без тегов?
лучше не начинать об этом.....
Цитата Сообщение от Welemir1 Посмотреть сообщение
Еслми он тебе нужен без тегов
да такой и нужен
Цитата Сообщение от Welemir1 Посмотреть сообщение
надо как то обработать контент
как лучше это сделать?
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7390 / 4817 / 1246
Регистрация: 30.03.2015
Сообщений: 13,664
Записей в блоге: 29
24.10.2023, 18:03
Цитата Сообщение от Ципихович Эндрю Посмотреть сообщение
как лучше это сделать?
обработать. Или регулярками или еще лучше спецбиблиотеками типа lxml, и вытащить из всех элементов только текст.
0
290 / 205 / 68
Регистрация: 18.09.2019
Сообщений: 407
Записей в блоге: 58
24.10.2023, 18:24
Ципихович Эндрю, может просто взять html2text и не мучаться?
0
1711 / 578 / 76
Регистрация: 10.04.2009
Сообщений: 9,305
24.10.2023, 19:44  [ТС]
Цитата Сообщение от Welemir1 Посмотреть сообщение
спецбиблиотеками типа lxml
нашёл
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
from lxml import html
 
html_data = """
<html>
  <body>
    <h1>Hello, lxml!</h1>
  </body>
</html>
"""
 
root = html.fromstring(html_data)
 
print(root.tag)  # output: html
print(root[0].tag)  # output: body
print(root[0][0].tag)  # output: h1
print(root[0][0].text)  # output: Hello, lxml!
root[0][0] - нули в скобках это что? как будет для всего документа?
0
1711 / 578 / 76
Регистрация: 10.04.2009
Сообщений: 9,305
27.10.2023, 15:50  [ТС]
при выполнении задачи удаление тегов пошёл этим путём
Python
1
2
3
4
            RE_TAGS = re.compile(r"<([^>]+)>", re.UNICODE)  # удаление тегов
            def strip_tags_TAGS(text, marker=''):
                return RE_TAGS.sub(marker, text)
            text_RE_TAGS = strip_tags_TAGS(f_in.read())
и на выходе получил в документах, например:
.s0 {font-family: "times new roman", serif; font-style: normal; font-weight: normal; font-size: 12pt; }
то есть пролетел, есть у кого внятный пример? спасибо

Добавлено через 2 часа 57 минут
Цитата Сообщение от Ципихович Эндрю Посмотреть сообщение
RE_TAGS = re.compile(r"<([^>]+)>", re.UNICODE)  # удаление тегов
            def strip_tags_TAGS(text, marker=''):
                return RE_TAGS.sub(marker, text)
            text_RE_TAGS = strip_tags_TAGS(f_in.read())
брал это пример на этом сайте, где ТС благодарил......
Цитата Сообщение от Viktorrus Посмотреть сообщение
Garry Galler, как всегда дал исчерпывающий ответ
и вот пример:
краткость сестра таланта-без холивара
https://ansmirnov.ru/python-re... om-string/
Python
1
2
import re
print re.sub(r'\<[^>]*\>', '', html)
увы опробовав этот пример - тоже остались теги........
есть у кого внятный пример?
0
 Аватар для Aviz__
2736 / 2046 / 506
Регистрация: 17.02.2014
Сообщений: 9,462
27.10.2023, 18:55
Лучший ответ Сообщение было отмечено Joey как решение

Решение

Цитата Сообщение от Ципихович Эндрю Посмотреть сообщение
есть у кого пример?
Python
1
2
3
4
5
6
7
8
9
10
from bs4 import BeautifulSoup
html = """
<html>
  <body>
    <h1>Hello, Андрюша!</h1>
  </body>
</html>"""
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text().strip()
print(text)
2
 Аватар для Kuzia domovenok
4268 / 3327 / 926
Регистрация: 25.03.2012
Сообщений: 12,531
Записей в блоге: 1
27.10.2023, 19:43
Ципихович Эндрю, ну какие-то основы веба и в частности html наверное надо знать, чтобы браться за такую задачу.
А не так "ой, а что это за <> в файле? Не ожидал. Как удалить?
Ой, я их удалил и у меня в тексте всякие скрипты появились... откуда???
Ой, а всё равно в тексте какие-то &lt; &gt; &amp; ... и.т.д.
".
Как-будто не программист, а тётя Клава пишет, приходится основы рассказывать...
0
 Аватар для Aviz__
2736 / 2046 / 506
Регистрация: 17.02.2014
Сообщений: 9,462
27.10.2023, 19:56
Кликните здесь для просмотра всего текста

Не по теме:


Kuzia domovenok, ты не прав! Андрюша - ментально не совсем здоров...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
27.10.2023, 19:56
Помогаю со студенческими работами здесь

Текстовые файлы
Имеется текстовый файл. Добавить в него строку из двенадцати черточек (------------), разместив ее: а) после пятой строки; б) после...

Как правильно открывать и читать файлы?
Здравствуйте, не пойму из-за чего начала вылетать следующая ошибка при вызове скрипта: Вызываю так: python3 /home/cp/gameservers.py...

Как правильно вносить изменения в большие текстовые файлы
Предположим есть большой файл (100 млн строк, не важно). В определенные строки нужно внести изменения (грубо говоря 5 строк надо...

Найти все RTF файлы, захешировать эти файлы MD5 и SHA1. Потов захешированые файлы поместить в документ
Найти все RTF файлы, захешировать эти файлы MD5 и SHA1. Потов захешированые файлы поместить в фаил(txt или в любой другой)в котором должны...

текстовые файлы
дано целое число К и текстовый файл. удалить из файла строку с номером К. Если строки с таким номером нет, то оставить файл без изменений.


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
12
Ответ Создать тему
Новые блоги и статьи
Изучаю kubernetes
lagorue 13.01.2026
А пригодятся-ли мне знания kubernetes в России?
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru