Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.69/13: Рейтинг темы: голосов - 13, средняя оценка - 4.69
0 / 0 / 0
Регистрация: 01.12.2017
Сообщений: 22

Чтение файла html

30.07.2020, 21:42. Показов 2581. Ответов 3

Студворк — интернет-сервис помощи студентам
Здравствуйте, пытаюсь прочитать скачанный файл html, чтобы спарсить сообщения из сайта.
Python
1
2
3
4
import bs4
 
with open('test.html') as inf:
    soup = bs4.BeautifulSoup(inf.read())
Пробовал разными способами, с помощью codecs и urllib, получаю одну и ту же ошибку.
Python
1
UnicodeDecodeError: 'charmap' codec can't decode byte 0x98 in position 220000: character maps to <undefined>
Подскажите, пожалуйста, грамотное решение проблемы.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
30.07.2020, 21:42
Ответы с готовыми решениями:

Чтение html файла
помогите пожалуйста с программой на питоне, которая читает файл html и выводит след информацию на экран: название html-ки из тэга title,...

Чтение из файла и вывод в html
Столкнулся с такой проблемой. Делаю сайт, есть раздел отзывов. По плану: Сделать текстовое поле и при загрузки страницы выводить в него...

чтение из файла и вывод прочитанного в html'е
Есть папка &quot;cl1&quot;. В ней находится &quot;index.php&quot; и папка &quot;cl2&quot; в которой находятся *.txt файлы (пронумерованные, 1.txt .. 20.txt) в...

3
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
30.07.2020, 23:53
Функция open('test.html') имеет параметр encoding.
Подумай как он может тебе пригодиться и вспомни, что на винде кодировка по умолчанию это windows-1251, которая в твоем случае не совпадает с кодировкой файла html.

Добавлено через 1 минуту
P.S. И вообще, крайне печально видеть код, который не думает о кодировке.
0
0 / 0 / 0
Регистрация: 01.12.2017
Сообщений: 22
31.07.2020, 12:27  [ТС]
Garry Galler, пробовал писать и с этим параметром
Python
1
with open('test.html', encoding='utf-8') as inf:
Такая же ошибка.
Точно также как и с
Python
1
with open('test.html', encoding='cp1251') as inf:
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
31.07.2020, 14:08
Цитата Сообщение от оаыф Посмотреть сообщение
пробовал писать и с этим параметром
Не надо писать наугад.
Просто возьми и определи кодировку html файла. Это же элементарно.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
31.07.2020, 14:08
Помогаю со студенческими работами здесь

Чтение html файла с турецкими символами
Здравствуйте. Прошу помощи в чтении html файла с турецкими символами. Проблема в том, что получаю коды символов: &amp; # 304; или...

Чтение через StreamReader HTML файла
Через StreamReader я читаю HTML файл В Debug все работает как надо, но при запуске через .EXE идет какая-то фильтрация и читается...

Чтение данных из txt файла и заполнение html-таблицы
Подскажите, пожалуйста, столкнулся с проблемой (в связи с тем, что умею выводить только &quot;Привет мир&quot; на страницу), : на...

Получение (чтение) html файла ресурса в проекте MFC
Здравствуйте! Пишу приложение на с++ для windows. В приложении хочу использовать html шаблон, который я предварительно добавил в ресурс...

Чтение из файла в БД, выгрузка данных, генерирование html кода
Всем привет. Есть БД: строка1, строка2, строка3. строка1, строка2, строка3. строка1, строка2,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Новые блоги и статьи
SDL3 для Desktop (MinGW): Рисуем цветные прямоугольники с помощью рисовальщика SDL3 на Си и C++
8Observer8 17.03.2026
Содержание блога Финальные проекты на Си и на C++: finish-rectangles-sdl3-c. zip finish-rectangles-sdl3-cpp. zip
Символические и жёсткие ссылки в Linux.
algri14 15.03.2026
Существует два типа ссылок — символические и жёсткие. Ссылка в Linux — это запись в каталоге, которая может указывать либо на inode «файла-ИСТОЧНИКА», тогда это будет «жёсткая ссылка» (hard link),. . .
[Owen Logic] Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора
ФедосеевПавел 14.03.2026
Поддержание уровня воды в резервуаре количеством включённых насосов: моделирование и выбор регулятора ВВЕДЕНИЕ Выполняя задание на управление насосной группой заполнения резервуара,. . .
делаю науч статью по влиянию грибов на сукцессию
anaschu 13.03.2026
прикрепляю статью
SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++
8Observer8 10.03.2026
Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:
Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE
8Observer8 10.03.2026
Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .
Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки
Neotwalker 08.03.2026
Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages
DevAlt 07.03.2026
Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru