Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск  
 
 
Рейтинг 4.50/4: Рейтинг темы: голосов - 4, средняя оценка - 4.50
1713 / 580 / 76
Регистрация: 10.04.2009
Сообщений: 9,335

html parser

22.12.2023, 09:18. Показов 1013. Ответов 21
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
здравствуйте, от тегов избавляюсь таким образом:
Python
1
2
3
        with open(patch_doc + file, 'r', encoding='utf-8') as f_in:  # исходные документы htm
            soup = BeautifulSoup(f_in.read(), 'html.parser')
            txt = soup.get_text().strip()
в хтмл имеется строка:
HTML5
1
<td style="padding-left: 3pt;padding-right: 3pt;padding-top: 5pt;padding-bottom: 5pt;min-height: 12pt; border-left: none; border-right: none; border-top: none; border-bottom: none; " valign="top" align="left"><div class="s0 aC bG">Боковой ветер</div></td><td style="padding-left: 3pt;padding-right: 3pt;padding-top: 5pt;padding-bottom: 5pt;min-height: 12pt; border-left: none; border-right: none; border-top: none; border-bottom: none; " valign="top" align="left"><div class="s0 aC bG">Низколетящие самолеты</div></td><td style="padding-left: 3pt;padding-right: 3pt;padding-top: 5pt;padding-bottom: 5pt;min-height: 12pt; border-left: none; border-right: none; border-top: none; border-bottom: none; " valign="top" align="left"><div class="s0 aC bG">Тоннель</div></td></tr>
которую питон после обработки сделал: Боковой ветерНизколетящие самолетыТоннель
что НЕ есть хорошо, как это исправить?

Добавлено через 37 минут
Python
1
2
3
4
5
6
        with open(patch_doc + file, 'r', encoding='utf-8') as f_in:  # исходные документы htm
            count_file_htm +=1
            soup = BeautifulSoup(f_in.read(), 'html.parser')
            txt = soup.get_text().strip()
            # НЕ объединять текст в соседних тегах
            txt = re.sub(r"<td[^>]+>\s*(.+?)\s*</td>", r"\1", txt, flags=re.DOTALL)
так поможет? ничего НЕ напутал?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
22.12.2023, 09:18
Ответы с готовыми решениями:

Bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: html-parser
Компилятор выдает ошибку. Не знаю что делать Ошибка: Traceback (most recent call last): File &quot;/Users/-------&quot;, line 5, in...

Выборка из списка Parser()[][]
Здравствуйте вопрос скорее всего школьный будет, только изучаю Python - по книге Пол бэрри, там сразу боевые задачи даются. Может...

Ply.yacc.YaccError: Unable to build parser
Добрый вечер коллеги На данный момент учусь писать собственный язык программирования, как среду разработки выбрал язык python, а...

21
1713 / 580 / 76
Регистрация: 10.04.2009
Сообщений: 9,335
22.12.2023, 15:28  [ТС]
Студворк — интернет-сервис помощи студентам
а вот и картинка, это вид в браузере
Цитата Сообщение от volkomorov Посмотреть сообщение
show_cmd управляет видимостью окна
как это в коде выглядит?
Миниатюры
html parser  
0
1713 / 580 / 76
Регистрация: 10.04.2009
Сообщений: 9,335
22.12.2023, 16:47  [ТС]
Python
1
2
3
4
with open(patch_doc + file, 'r', encoding='utf-8') as f_in:  # исходные документы htm
    soup = BeautifulSoup(f_in.read(), 'html.parser')
    txt = soup.get_text().strip()
    # txt = soup.get_text("\n", strip=True)
тогда считает как:
1.291.301.31
Боковой ветерНизколетящие самолетыТоннель
Плохо!!!
Если в коде будет:
Python
1
2
3
4
with open(patch_doc + file, 'r', encoding='utf-8') as f_in:  # исходные документы htm
    soup = BeautifulSoup(f_in.read(), 'html.parser')
    # txt = soup.get_text().strip()
    txt = soup.get_text("\n", strip=True)
тогда множество строк вида:
(в ред.
Постановления
Правительства РФ от 14.12.2005 N 767)
будут разделены на три части - плохо!!!!
это происходит в файле: 5. ГОСТ Р 52289-2019_01.04.2020.htm
как же выбрать золотую середину, чтобы было хорошо?
хотел приложить файл, увы, сообщение:
5. ГОСТ Р 52289-2019_01.04.2020.htm:
Некорректный файл
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
22.12.2023, 16:47

Парсинг HTML на Python 3 через http.parser
Нужно распарсить HTML-документ, чтобы вытащить из него определенные данные. Сделал так (html в .txt-шник закинул, не ругайтесь) from...

parser
Написал такой код для парсера я не слишком шарю в этой теме но что то тут явно не так, так как ни в пейчарме не выводит ответ ни в каких...

Parser
Добрый день, изучаю парсинг сайтов с помощью BeautifulSoup Появился вопрос: Есть следующий код, в переменную time записываю информацию...

Parser Python
import requests from bs4 import BeautifulSoup as BS page = 1 while True: r =...

Parser Http страницы
Здравствуйте, как распарсить http в html? Знаю что это возможно но не понимаю как. В инете находил готовые варианты, но там ничего не...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
22
Ответ Создать тему
Новые блоги и статьи
Алиса нашла кучу ошибок компиляции и запуска в проекте, который без проблем компилировался и запускался)))
anaschu 30.06.2026
Я пока посмеюся, но завтра проверю. А вообще интерсно. Дал алисе файл, в котором точно нет ошибок компиляции и запуска, и попросил их найти. Нашла кучу))) Критические ошибки, мешающие компиляции и. . .
сукцессия 16. Общий обзор, в основном что бы другие ии поняли
anaschu 29.06.2026
# Передаточный документ: модель микоризной сукцессии (для нового чата) Этот документ предназначен для того, чтобы новый чат Claude мог продолжить работу без необходимости заново разбираться в. . .
сукцессия 15 неявная схема
anaschu 29.06.2026
Алиса Калибровка параметров симбиотической модели: технический обзор Содержание: Введение Постановка проблемы Технические аспекты реализации Процесс внедрения изменений
сукцессия 14. Обновленная схема модели
anaschu 28.06.2026
ГЛОБАЛЬНАЯ ОПИСАТЕЛЬНАЯ СПЕЦИФИКАЦИЯ ЭКОСИСТЕМНОЙ МОДЕЛИ «SOIL CHEMISTRY & MYCORRHIZA 2. 0» https:/ / ibb. co/ NnkGpfMd Представленная интегрированная схема описывает непрерывную нелинейную. . .
сукцессия 13. Питон модель трехзонного мицелия, пока что в основном арбускулярного
anaschu 28.06.2026
## Разработка агентной модели микоризной сукцессии: от выявления артефактов к созданию комплексной системы ### Аннотация Представлено исследование по разработке агентной модели микоризной. . .
сукцессия 12. краткий список проверок модели перед запуском.
anaschu 27.06.2026
Скрытые отказы в моделях систем динамики (SD-models) экологических систем: два случая из практики Контекст Разбирался прототип модели систем динамики (SD-модели) микоризной сукцессии: пять. . .
Сукцессия 11. Проверка орудий перед войной: разработка через тестирование
anaschu 27.06.2026
Как не дать модели соврать самой себе: проверки для симуляции микоризной сукцессии Введение Когда вы строите математическую модель живой системы — грибов, растений, почвы — главная опасность. . .
10 сукцессия. Питон код войны грибов и растений
anaschu 27.06.2026
import numpy as np class PlantAgent: def __init__(self, name, strategy, initial_biomass): self. name = name self. strategy = strategy # "greedy" (широколиственные) или. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru