Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/3: Рейтинг темы: голосов - 3, средняя оценка - 4.67
1712 / 579 / 76
Регистрация: 10.04.2009
Сообщений: 9,328

Читать .htm файлы как текстовые файлы

24.10.2023, 15:40. Показов 719. Ответов 11
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
здравствуйте как проще это делается без парсинга=откидывания тегов
типа скопировать файл сменить расширение считать и удалить
спасибо
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
24.10.2023, 15:40
Ответы с готовыми решениями:

На простеньком примере объясните как считывать текстовые файлы
допустим в входном файле(input.in) содержится два числа а и б мы присваиваем эти значения переменным а и б. в выходной файл(output.out)...

Перестало открывать и читать файлы
Работало все нормально щас буквально тока что перестало файлы открывать и читать from os import * def Readfile(): fname =...

Текстовые файлы
Не получается решить задачку :Дан текстовый файл.подсчитсть число появлений в нем каждой строчной (то есть маленькой) русской буквы и...

11
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,694
Записей в блоге: 29
24.10.2023, 16:07
Ципихович Эндрю, хтмл это обычный текстовый файл, открывай и читай, в чем вопрос?
0
1712 / 579 / 76
Регистрация: 10.04.2009
Сообщений: 9,328
24.10.2023, 16:38  [ТС]
Welemir1, пока спорить не буду-ПК занят))
но когда в коде:
Python
1
2
3
    if os.path.isfile(f'{patch_doc}/{file}') and file.endswith('.htm'):
        with open(patch_doc + file, 'r', encoding='utf-8') as f_in:  # исходные документы htm
            txt_htm += f_in.read() + '\n'
при отладке наводил курсор на переменную txt_htm то видел, что туда валится текст с тегами, мне они нафиг не нужны в моём случае......
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,694
Записей в блоге: 29
24.10.2023, 16:55
Ципихович Эндрю, ты задачу опиши тогда нормально, бедолага.
Цитата Сообщение от Ципихович Эндрю Посмотреть сообщение
Читать .htm файлы как текстовые файлы
вот что ты написал. Читать хтмл файл можно, также как и любые. Но конечно в нем останутся все теги. Еслми он тебе нужен без тегов то в любом случаем надо как то обработать контент. И зачем тебе он без тегов?
0
1712 / 579 / 76
Регистрация: 10.04.2009
Сообщений: 9,328
24.10.2023, 17:35  [ТС]
Цитата Сообщение от Welemir1 Посмотреть сообщение
И зачем тебе он без тегов?
лучше не начинать об этом.....
Цитата Сообщение от Welemir1 Посмотреть сообщение
Еслми он тебе нужен без тегов
да такой и нужен
Цитата Сообщение от Welemir1 Посмотреть сообщение
надо как то обработать контент
как лучше это сделать?
0
Автоматизируй это!
Эксперт Python
 Аватар для Welemir1
7392 / 4819 / 1246
Регистрация: 30.03.2015
Сообщений: 13,694
Записей в блоге: 29
24.10.2023, 18:03
Цитата Сообщение от Ципихович Эндрю Посмотреть сообщение
как лучше это сделать?
обработать. Или регулярками или еще лучше спецбиблиотеками типа lxml, и вытащить из всех элементов только текст.
0
290 / 205 / 68
Регистрация: 18.09.2019
Сообщений: 407
Записей в блоге: 58
24.10.2023, 18:24
Ципихович Эндрю, может просто взять html2text и не мучаться?
0
1712 / 579 / 76
Регистрация: 10.04.2009
Сообщений: 9,328
24.10.2023, 19:44  [ТС]
Цитата Сообщение от Welemir1 Посмотреть сообщение
спецбиблиотеками типа lxml
нашёл
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
from lxml import html
 
html_data = """
<html>
  <body>
    <h1>Hello, lxml!</h1>
  </body>
</html>
"""
 
root = html.fromstring(html_data)
 
print(root.tag)  # output: html
print(root[0].tag)  # output: body
print(root[0][0].tag)  # output: h1
print(root[0][0].text)  # output: Hello, lxml!
root[0][0] - нули в скобках это что? как будет для всего документа?
0
1712 / 579 / 76
Регистрация: 10.04.2009
Сообщений: 9,328
27.10.2023, 15:50  [ТС]
при выполнении задачи удаление тегов пошёл этим путём
Python
1
2
3
4
            RE_TAGS = re.compile(r"<([^>]+)>", re.UNICODE)  # удаление тегов
            def strip_tags_TAGS(text, marker=''):
                return RE_TAGS.sub(marker, text)
            text_RE_TAGS = strip_tags_TAGS(f_in.read())
и на выходе получил в документах, например:
.s0 {font-family: "times new roman", serif; font-style: normal; font-weight: normal; font-size: 12pt; }
то есть пролетел, есть у кого внятный пример? спасибо

Добавлено через 2 часа 57 минут
Цитата Сообщение от Ципихович Эндрю Посмотреть сообщение
RE_TAGS = re.compile(r"<([^>]+)>", re.UNICODE)  # удаление тегов
            def strip_tags_TAGS(text, marker=''):
                return RE_TAGS.sub(marker, text)
            text_RE_TAGS = strip_tags_TAGS(f_in.read())
брал это пример на этом сайте, где ТС благодарил......
Цитата Сообщение от Viktorrus Посмотреть сообщение
Garry Galler, как всегда дал исчерпывающий ответ
и вот пример:
краткость сестра таланта-без холивара
https://ansmirnov.ru/python-re... om-string/
Python
1
2
import re
print re.sub(r'\<[^>]*\>', '', html)
увы опробовав этот пример - тоже остались теги........
есть у кого внятный пример?
0
 Аватар для Aviz__
2755 / 2062 / 509
Регистрация: 17.02.2014
Сообщений: 9,492
27.10.2023, 18:55
Лучший ответ Сообщение было отмечено Joey как решение

Решение

Цитата Сообщение от Ципихович Эндрю Посмотреть сообщение
есть у кого пример?
Python
1
2
3
4
5
6
7
8
9
10
from bs4 import BeautifulSoup
html = """
<html>
  <body>
    <h1>Hello, Андрюша!</h1>
  </body>
</html>"""
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text().strip()
print(text)
2
 Аватар для Kuzia domovenok
4268 / 3327 / 926
Регистрация: 25.03.2012
Сообщений: 12,536
Записей в блоге: 1
27.10.2023, 19:43
Ципихович Эндрю, ну какие-то основы веба и в частности html наверное надо знать, чтобы браться за такую задачу.
А не так "ой, а что это за <> в файле? Не ожидал. Как удалить?
Ой, я их удалил и у меня в тексте всякие скрипты появились... откуда???
Ой, а всё равно в тексте какие-то &lt; &gt; &amp; ... и.т.д.
".
Как-будто не программист, а тётя Клава пишет, приходится основы рассказывать...
0
 Аватар для Aviz__
2755 / 2062 / 509
Регистрация: 17.02.2014
Сообщений: 9,492
27.10.2023, 19:56
Кликните здесь для просмотра всего текста

Не по теме:


Kuzia domovenok, ты не прав! Андрюша - ментально не совсем здоров...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
27.10.2023, 19:56
Помогаю со студенческими работами здесь

Текстовые файлы
Имеется текстовый файл. Добавить в него строку из двенадцати черточек (------------), разместив ее: а) после пятой строки; б) после...

Как правильно открывать и читать файлы?
Здравствуйте, не пойму из-за чего начала вылетать следующая ошибка при вызове скрипта: Вызываю так: python3 /home/cp/gameservers.py...

Как правильно вносить изменения в большие текстовые файлы
Предположим есть большой файл (100 млн строк, не важно). В определенные строки нужно внести изменения (грубо говоря 5 строк надо...

Найти все RTF файлы, захешировать эти файлы MD5 и SHA1. Потов захешированые файлы поместить в документ
Найти все RTF файлы, захешировать эти файлы MD5 и SHA1. Потов захешированые файлы поместить в фаил(txt или в любой другой)в котором должны...

текстовые файлы
дано целое число К и текстовый файл. удалить из файла строку с номером К. Если строки с таким номером нет, то оставить файл без изменений.


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
12
Ответ Создать тему
Новые блоги и статьи
Вывод данных через динамический список в справочнике
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Функция заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
10 пpимет, которые всегда сбываются
Maks 31.03.2026
1. Чтобы, наконец, пришла маршрутка, надо закурить. Если сигарета последняя, маршрутка придет еще до второй затяжки даже вопреки расписанию. 2. Нaдоели зима и снег? Не надо переезжать. Достаточно. . .
Перемещение выделенных строк ТЧ из одного документа в другой
Maks 31.03.2026
Реализация из решения ниже выполнена на примере нетипового документа "ВыдачаОборудованияНаСпецтехнику" с единственной табличной частью "ОборудованиеИКомплектующие" разработанного в конфигурации КА2. . . .
Functional First Web Framework Suave
DevAlt 30.03.2026
Sauve. IO Апнулись до NET10. Из зависимостей один пакет, работает одинаково хорошо как в режиме проекта так и в интерактивном режиме. из сложностей - чисто функциональный подход. Решил. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru