Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.64/11: Рейтинг темы: голосов - 11, средняя оценка - 4.64
11 / 10 / 4
Регистрация: 08.09.2014
Сообщений: 206

Кодировка символов

08.10.2021, 14:56. Показов 2352. Ответов 5

Студворк — интернет-сервис помощи студентам
Есть текстовый файл. notepad++ говорит, что кодировка UTF-8. Читаю
Python
1
2
3
f = open('word_rus.txt', 'rt')
words = f.read().split()
print(words[0])
Получаю
абажур

Пытаюсь применить encode - получаю 4-х байтовые символы:
b'\xd0\xa0\xc2\xb0\xd0\xa0\xc2\xb1\xd0\x a0\xc2\xb0\xd0\xa0\xc2\xb6\xd0\xa1\xd1\x 93\xd0\xa1\xd0\x82'

Если просто преобразую первое слово файла "абажур", то все нормально:
Python
1
2
3
4
5
6
a = "абажур"
print(a)
b = a.encode()
print(b)
aa = b.decode()
print(aa)
абажур
b'\xd0\xb0\xd0\xb1\xd0\xb0\xd0\xb6\xd1\x 83\xd1\x80'
абажур

В интернете не нашел внятного ответа. Помогите, пожалуйста!
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
08.10.2021, 14:56
Ответы с готовыми решениями:

Кодировка для символов
Здравствуйте! Столкнулся с такой проблемой что при записи в БД получаю ошибку кодировки: 'latin-1' codec can't encode character '\u0142' in...

Кодировка символов
Нужна помощь в такой вот задаче. Пишу парсер для rtf файлов. Загвоздка в том что латинский текст в файле храниться как есть, а вот русский...

Кодировка символов в С++
получил кода русских символов через такую небольшую прогу: char ch, ch1; int in, in1; ch = 'я'; ch1 = 'А'; in = ch; in1 =...

5
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
08.10.2021, 15:36
Цитата Сообщение от gregsuslov Посмотреть сообщение
notepad++ говорит, что кодировка UTF-8.
Notepad++ никогда не умел определять кодировку. Как и любой текстовый редактор. Они не сниффят ее, они ее только запоминают.
Кодировку можно узнать только тогда когда ты ее сам лично установил файлу. Или специальным сниффером типа enca.
0
11 / 10 / 4
Регистрация: 08.09.2014
Сообщений: 206
08.10.2021, 15:50  [ТС]
Да, фиг с ним, с notepad. Как привести кодировку к читаемому виду?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
08.10.2021, 16:12
Лучший ответ Сообщение было отмечено gregsuslov как решение

Решение

Цитата Сообщение от gregsuslov Посмотреть сообщение
Как привести кодировку к читаемому виду?
Ну это вопрос из разряда Как найти Бога? (У всех по разному....)
Хочешь скину ссылку на таблицу кракозябров (или сам найдешь)? Все по ней определяют из какого кодировки получилось то, что получилось.

P.S. Или скачай енку и заснифь кодировку файла.

Добавлено через 5 минут
-----------------------------------------

Python
1
open('word_rus.txt', 'r', encoding="utf-8")
Кстати, таблица кракозябров так и показала: пытаемся читать utf-8 как windows-1251.
На винде Python по умолчанию использует исключительно кодировку локали, которая может быть какой угодно. На русской винде это windows-1251
Это нужно знать как дважды два.
Это на линуксе и маке по умолчанию UTF-8.
1
11 / 10 / 4
Регистрация: 08.09.2014
Сообщений: 206
08.10.2021, 16:16  [ТС]
Огромное спасибо. Как всегда самые тупые проблемы решаются самыми простыми методами.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
08.10.2021, 16:28
Кстати, для ручного преобразования, чтобы понять откуда ноги растут, можно пробовать
так:
Python
1
2
>>> 'абажур'.encode("1251").decode("utf-8")
'абажур
'
Подставляем в encode предполагаемую правильную кодировку и в decode - ту которой пытались прочитать.
Наоборот: в encode - неправильную (которой пытались) и в decode - предполагаемую правильную.
А вот так кракозябра получилась:
Python
1
2
3
>>> "абажур".encode("utf-8").decode("1251")
'абажур'
>>>
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
08.10.2021, 16:28
Помогаю со студенческими работами здесь

Кодировка символов
Здравствуйте, почему при выводе информации из файла выходят иероглифы? #include<stdio.h> #include<locale.h> ...

Кодировка символов в Qt 5
В программе нужно выводить на текстовое поле, случайно сгенерированное число, но в результате выводятся крякозяры. В интернете есть...

Кодировка символов
Есть код, который перебирает все файлы и папки в директории и добавляет их всех в архив с помощью zlib. Вот сам код: string...

кодировка символов
Всем привет! Столкнулся с такой проблемкой: есть поле unsigned char в него я и ввожу параметр значения, однако необходимо чтобы...

Кодировка символов
здравствуйте, столкнулся с проблемой кодировки, вообщем при использовании System.Out.println(""), если ввести русские символы,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост. Налог на собак: https:/ / **********/ gallery/ V06K53e Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf Пост отсюда. . .
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop? Ниже её машинный перевод. После долгих разбирательств я наконец-то вернула себе. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru