Форум программистов, компьютерный форум, киберфорум
Python: Web
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.52/29: Рейтинг темы: голосов - 29, средняя оценка - 4.52
28 / 20 / 11
Регистрация: 10.02.2016
Сообщений: 237

Ошибка кодировки при чтении из файла

30.03.2017, 14:11. Показов 6218. Ответов 12
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день, коллеги! Читаю локальный файл при помощи urllib
Python
1
2
3
4
5
import urllib
file_address="C:/work/stores/4067.html"
file=urllib.request.urlopen("file:///" + file_address)
soup=BeautifulSoup(file,"lxml")
print(soup.prettify())
При этом весь русский текст превращается в тарабарский. Открываю локальный файл браузером и тоже тарабарский. Если открывать файл блокнотом, то всё нормально. В файле указана кодировка:
HTML5
1
charset=windows-1251
Как добавить кодировку в
Python
1
urllib.request.urlopen()
?
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
30.03.2017, 14:11
Ответы с готовыми решениями:

Ошибка при чтении файла
Программа должна выводить имена файлов и их строки построчно. При запуске выдает ошибку синтаксиса. #!/usr/bin/env python # -*-...

Ошибка при чтении данных из файла
Вот задача но код не работает выдает ошибку Необходимо реализовать один из методов для решения задачи классификации статистических...

Ошибка при чтении файла csv: UnicodeDecodeError
Есть файл csv: tmdb_5000_movies.csv Задача - прочитать его и записать содержимое в объект в памяти. Мой код: import csv ...

12
 Аватар для Ennjin
103 / 81 / 54
Регистрация: 25.11.2016
Сообщений: 278
30.03.2017, 14:22
измени кодировку файла на utf-8
1
28 / 20 / 11
Регистрация: 10.02.2016
Сообщений: 237
30.03.2017, 14:51  [ТС]
Есть очень много файлов и заходить в каждый менят неудобно, можно ли как-то в функции это сделать?

Добавлено через 1 минуту
изменил в одном, всё работает, но всё же не хочется лезть во все файлы
0
Эксперт по компьютерным сетям
 Аватар для Jabbson
5907 / 3359 / 1036
Регистрация: 03.11.2009
Сообщений: 10,008
30.03.2017, 17:05
А почему используете urllib, вместо того, чтобы open() Ваш файл?
1
28 / 20 / 11
Регистрация: 10.02.2016
Сообщений: 237
30.03.2017, 17:53  [ТС]
Чтобы запихнуть его в BeautifulSoup, на open() суп ругается
0
 Аватар для pashtet-kun
135 / 120 / 37
Регистрация: 30.09.2012
Сообщений: 400
30.03.2017, 17:58
Python
1
BeautifulSoup(open("lalala.html"))
и какую ошибку выдает?
1
28 / 20 / 11
Регистрация: 10.02.2016
Сообщений: 237
31.03.2017, 11:14  [ТС]
Code
1
UnicodeDecodeError: 'charmap' codec can't decode byte 0x98 in position 774: character maps to <undefined>
0
 Аватар для pashtet-kun
135 / 120 / 37
Регистрация: 30.09.2012
Сообщений: 400
31.03.2017, 11:20
Лучший ответ Сообщение было отмечено Joey Black как решение

Решение

попробуй
Python
1
2
3
import codecs
fileObj = codecs.open( "someFilePath", "r", "cp1251" )
soup = BeautifulSoup(fileObj)
1
28 / 20 / 11
Регистрация: 10.02.2016
Сообщений: 237
31.03.2017, 11:34  [ТС]
Python
1
2
3
4
from bs4 import BeautifulSoup
import codecs
file = codecs.open( file_address, "r", "cp1251" )
soup = BeautifulSoup(file,'lxml')
Code
1
2
3
4
  File "C:\Anaconda3\lib\encodings\cp1251.py", line 15, in decode
    return codecs.charmap_decode(input,errors,decoding_table)
 
UnicodeDecodeError: 'charmap' codec can't decode byte 0x98 in position 809: character maps to <undefined>
0
 Аватар для pashtet-kun
135 / 120 / 37
Регистрация: 30.09.2012
Сообщений: 400
31.03.2017, 11:43
значит кодировка файла другая, попробуй utf-8 или файл сюда выложи
1
28 / 20 / 11
Регистрация: 10.02.2016
Сообщений: 237
31.03.2017, 11:47  [ТС]
С utf-8 заработало), спасибо!!!
0
28 / 20 / 11
Регистрация: 10.02.2016
Сообщений: 237
06.04.2017, 15:17  [ТС]
коллеги, сел за другой комп, запустил и теперь вместо русского языка одни знаки вопроса, что делать?
Вложения
Тип файла: txt test.txt (10.9 Кб, 2 просмотров)
0
28 / 20 / 11
Регистрация: 10.02.2016
Сообщений: 237
06.04.2017, 15:41  [ТС]



Добавлено через 2 минуты
не получается выложить страницу

Добавлено через 18 минут
поменял язык программ не поддерживающих юникод на русский, всё заработало
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
06.04.2017, 15:41
Помогаю со студенческими работами здесь

Ошибка кодировки при чтении из файла
При попытке выборки данных по определенным тегам из сохраненного файла при помощи BeautifulSoup, появляется сообщение UnicodeDecodeError:...

Определение кодировки при чтении из файла
Подскажите как причитать из файла, чтобы содержимое richtextbox было идентичным содержанию файла using (FileStream...

Кодировки при чтении кирилицы с текстового файла
Дан текстовый файл. Заменить в нем все прописные русские буквы на строчные, а все строчные — на прописные. ...

Сохранение кодировки при чтении XML-файла
Всем привет :) Прошу знающих людей помочь советом, или просто пальцем ткнуть в литературу, только пожалуйста, поподробнее, а то я совсем...

Изменение кодировки текста при чтении/записи файла txt
Здравствуйте! Код ниже изменяет файл (отбрасывает последний знак в файле &quot;переноса строки&quot; если таковой имеется), но при изменении...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
13
Ответ Создать тему
Новые блоги и статьи
Программный контроль заполнения реквизита табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита табличной части. . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Функция заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru