|
0 / 0 / 0
Регистрация: 07.10.2019
Сообщений: 12
|
|
Очистка текста от HTML тэгов18.06.2020, 10:50. Показов 11764. Ответов 9
Метки нет (Все метки)
Очистите файл от HTML-тегов: http://dfedorov.spb.ru/python/files/p.html
Выведите на экран «чистый» текст. P.S. можно использовать только стандартные модули Python.
0
|
|
| 18.06.2020, 10:50 | |
|
Ответы с готовыми решениями:
9
Удаление тэгов из текста HTML страницы
Реализовать функцию проверки правильности html-тэгов в html-документе |
|
Заклинатель змей
705 / 560 / 219
Регистрация: 30.04.2016
Сообщений: 2,605
|
|
| 18.06.2020, 16:46 | |
|
Hydies, могу предложить только Beautiful Soup
0
|
|
| 18.06.2020, 17:09 | |
|
Hydies, Если я не ошибаюсь (HTML занимался в прошлом и немного) любые теги размещаются в угловых скобках <...> . Если это так , то нужно искать смещение первого символа "<" и затем первого символа ">" и срезом удалять этот кусок строки. И так в цикле удалить из строки (текста) все теги.
Возможно все это просто сделать с помощью регулярных выражений. Но я в них не разбираюсь. Но это будет работать, только если в исходном тексте нет символов "<" и ">". Но и в этом случае задача решаема, только алгоритм усложнится. Потребуется убеждаться, что мы имеем дело с символами тега а не для других мест в исходном тексте.
0
|
|
|
Просто Лис
|
||||||||||||
| 18.06.2020, 18:11 | ||||||||||||
0
|
||||||||||||
|
Заклинатель змей
705 / 560 / 219
Регистрация: 30.04.2016
Сообщений: 2,605
|
|
| 18.06.2020, 19:13 | |
|
Рыжий Лис, регулярки и HTML? Ну такое
0
|
|
| 18.06.2020, 19:20 | ||||||||||||
|
Рыжий Лис, Вот открывающий тег
и удалить закрывающий тег
Аналогично с таблицами. Если удалить теги формирующие таблицу, то текст будет не читаемым. Алгоритм, который предложил я годится только для простых, не структурированных текстов. А в общем, для получения из страницы с тегами содержательный текст нужно использовать существующие методики парсинга и используемые для этого программы. Других вариантов я думаю нет. Добавлено через 6 минут Кстати в питоне заложены средства для парсинга, включающие встроенный модуль. Добавлено через 45 секунд
0
|
||||||||||||
|
Просто Лис
|
|||||||
| 18.06.2020, 19:21 | |||||||
|
В джанге реализовано так: Кликните здесь для просмотра всего текста
Правда, в _strip_once спрятан парсер
0
|
|||||||
| 18.06.2020, 19:54 | |
|
Итак подытожу. Нужно используя встроенные средства питона для парсинга, что бы решить данную задачу. Для этого нужно изучить эти средства питона. Я про них читал, когда интересовался парсингом, но не изучал.
Добавлено через 11 минут Я думал, что читал у Лутца про парсинг с помощью питона. Но сейчас посмотрел, у него этого нет. Видимо мне это попадалось на просторах интернета, когда я было попытался заняться парсингом, но потом бросил это занятие. Добавлено через 14 минут Hydies, Вот одна из ссылок о парсинге на питоне. "Всё о парсинге сайтов на Python" https://proglib.io/p/parsing-sites/ Но у меня в памяти смутно, но я читал про какие то средства встроенные в питон (с примерами), которые находятся то ли в модуле, то ли просто инструкции питона предназначенные для парсинга. Но это может рассказать только человек, который занимается парсингом и изучал эти средства питона. Если хотите разобраться сами, то это нужно лазить по интернету и искать информацию по использованию питона для парсинга сайтов. Я уже от этого полностью отошел. Добавлено через 5 минут Кстати, лазия сейчас по интернету, по моему в той ссылке, которую я дал, я заметил, что для парсинга используется в том числе json. Глянул список модулей питона. json это один из встроенных модулей питона.
0
|
|
|
|
|||||||
| 18.06.2020, 19:54 | |||||||
|
Вот gensim'овский препроцессор gensim.parsing.preprocessing.strip_tags( text):
0
|
|||||||
| 18.06.2020, 19:59 | |
|
А вот еще встроенный модуль в питоне parser. Видимо именно он используется для парсинга, и именно про него я находил инфу в интернете, как парсить питоном.
Добавлено через 2 минуты Garry Galler, как всегда дал исчерпывающий ответ
0
|
|
| 18.06.2020, 19:59 | |
|
Помогаю со студенческими работами здесь
10
Замена тэгов HTML Замена тэгов HTML в строке
Чтение Html Без потери тэгов
Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
||||
|
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Налог на собак: https:/ / **********/ gallery/ V06K53e
Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf
Пост отсюда. . .
|
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop?
Ниже её машинный перевод.
После долгих разбирательств я наконец-то вернула себе. . .
|
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод
Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод.
Thinkpad X220 Tablet —. . .
|
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта
Симптом:
После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
|
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
|
|
Новый ноутбук
volvo 07.12.2025
Всем привет.
По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне:
Ryzen 5 7533HS
64 Gb DDR5
1Tb NVMe
16" Full HD Display
Win11 Pro
|
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
|
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
|
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов
На странице:
https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/
нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
|
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов.
. . .
|