Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.64/11: Рейтинг темы: голосов - 11, средняя оценка - 4.64
11 / 10 / 4
Регистрация: 08.09.2014
Сообщений: 207

Кодировка символов

08.10.2021, 14:56. Показов 2418. Ответов 5

Студворк — интернет-сервис помощи студентам
Есть текстовый файл. notepad++ говорит, что кодировка UTF-8. Читаю
Python
1
2
3
f = open('word_rus.txt', 'rt')
words = f.read().split()
print(words[0])
Получаю
абажур

Пытаюсь применить encode - получаю 4-х байтовые символы:
b'\xd0\xa0\xc2\xb0\xd0\xa0\xc2\xb1\xd0\x a0\xc2\xb0\xd0\xa0\xc2\xb6\xd0\xa1\xd1\x 93\xd0\xa1\xd0\x82'

Если просто преобразую первое слово файла "абажур", то все нормально:
Python
1
2
3
4
5
6
a = "абажур"
print(a)
b = a.encode()
print(b)
aa = b.decode()
print(aa)
абажур
b'\xd0\xb0\xd0\xb1\xd0\xb0\xd0\xb6\xd1\x 83\xd1\x80'
абажур

В интернете не нашел внятного ответа. Помогите, пожалуйста!
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
08.10.2021, 14:56
Ответы с готовыми решениями:

Кодировка для символов
Здравствуйте! Столкнулся с такой проблемой что при записи в БД получаю ошибку кодировки: 'latin-1' codec can't encode character '\u0142' in...

Кодировка символов
Нужна помощь в такой вот задаче. Пишу парсер для rtf файлов. Загвоздка в том что латинский текст в файле храниться как есть, а вот русский...

Кодировка символов в С++
получил кода русских символов через такую небольшую прогу: char ch, ch1; int in, in1; ch = 'я'; ch1 = 'А'; in = ch; in1 =...

5
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
08.10.2021, 15:36
Цитата Сообщение от gregsuslov Посмотреть сообщение
notepad++ говорит, что кодировка UTF-8.
Notepad++ никогда не умел определять кодировку. Как и любой текстовый редактор. Они не сниффят ее, они ее только запоминают.
Кодировку можно узнать только тогда когда ты ее сам лично установил файлу. Или специальным сниффером типа enca.
0
11 / 10 / 4
Регистрация: 08.09.2014
Сообщений: 207
08.10.2021, 15:50  [ТС]
Да, фиг с ним, с notepad. Как привести кодировку к читаемому виду?
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
08.10.2021, 16:12
Лучший ответ Сообщение было отмечено gregsuslov как решение

Решение

Цитата Сообщение от gregsuslov Посмотреть сообщение
Как привести кодировку к читаемому виду?
Ну это вопрос из разряда Как найти Бога? (У всех по разному....)
Хочешь скину ссылку на таблицу кракозябров (или сам найдешь)? Все по ней определяют из какого кодировки получилось то, что получилось.

P.S. Или скачай енку и заснифь кодировку файла.

Добавлено через 5 минут
-----------------------------------------

Python
1
open('word_rus.txt', 'r', encoding="utf-8")
Кстати, таблица кракозябров так и показала: пытаемся читать utf-8 как windows-1251.
На винде Python по умолчанию использует исключительно кодировку локали, которая может быть какой угодно. На русской винде это windows-1251
Это нужно знать как дважды два.
Это на линуксе и маке по умолчанию UTF-8.
1
11 / 10 / 4
Регистрация: 08.09.2014
Сообщений: 207
08.10.2021, 16:16  [ТС]
Огромное спасибо. Как всегда самые тупые проблемы решаются самыми простыми методами.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
08.10.2021, 16:28
Кстати, для ручного преобразования, чтобы понять откуда ноги растут, можно пробовать
так:
Python
1
2
>>> 'абажур'.encode("1251").decode("utf-8")
'абажур
'
Подставляем в encode предполагаемую правильную кодировку и в decode - ту которой пытались прочитать.
Наоборот: в encode - неправильную (которой пытались) и в decode - предполагаемую правильную.
А вот так кракозябра получилась:
Python
1
2
3
>>> "абажур".encode("utf-8").decode("1251")
'абажур'
>>>
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
08.10.2021, 16:28
Помогаю со студенческими работами здесь

Кодировка символов
Здравствуйте, почему при выводе информации из файла выходят иероглифы? #include<stdio.h> #include<locale.h> ...

Кодировка символов в Qt 5
В программе нужно выводить на текстовое поле, случайно сгенерированное число, но в результате выводятся крякозяры. В интернете есть...

Кодировка символов
Есть код, который перебирает все файлы и папки в директории и добавляет их всех в архив с помощью zlib. Вот сам код: string...

кодировка символов
Всем привет! Столкнулся с такой проблемкой: есть поле unsigned char в него я и ввожу параметр значения, однако необходимо чтобы...

Кодировка символов
здравствуйте, столкнулся с проблемой кодировки, вообщем при использовании System.Out.println(""), если ввести русские символы,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Модульный подход на примере F#
DevAlt 06.03.2026
В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .
Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование
8Observer8 05.03.2026
Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .
SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D
8Observer8 04.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .
SDL3 для Web (WebAssembly): Идентификация объектов на Box2D v3 - использование userData и событий коллизий
8Observer8 02.03.2026
Содержание блога Финальная демка в браузере. Итоговый код: finish-collision-events-sdl3-c. zip Сканируйте QR-код на мобильном и вы увидите, что появится джойстик для управления главным героем. . . .
Реалии
Hrethgir 01.03.2026
Нет, я не закончил до сих пор симулятор. Эта задача сложнее. Не получилось уйти в плавсостав, но оно и к лучшему, возможно. Точнее получалось - но сварщиком в палубную команду, а это значит, в моём. . .
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
SDL3 для Web (WebAssembly): Сборка библиотек: SDL3, Box2D, FreeType, SDL3_ttf, SDL3_mixer и SDL3_image из исходников с помощью CMake и Emscripten
8Observer8 27.02.2026
Недавно вышла версия 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual Studio. . . .
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru