Определение кодировки и перевод в UTF-8

@seytu · Регистрация: 07.05.2020

Студворк — интернет-сервис помощи студентам

Алекс получил от своего друга Никиты из России электронное письмо с вложенным текстовым файлом (не маленьким – точно больше 100Кб) и был удивлен его содержимым. Алекс давно знаком с Никитой и знает, что текст точно на русском языке, что он все пишет в нижнем регистре, и что Никита принципиально не использует никакие кодировки, кроме однобайтовых. Алекс хотел бы определить, какую кодировку Никита использовал (CP866 (DOS), CP1251 (Windows), KOI8R, ISO-8859-5, cp10007(MacOS)), и увидеть первые 2048 символов этого файла в кодировке UTF-8. Воспользуйтесь имеющимися данными, напишите программу, которая будет определять автоматически определять кодировку и выводить первые 2048 символов этого файла в кодировке UTF-8.

Буду очень благодарен)
Идей нет совсем

@u235 · 11.10.2021, 13:53

seytu, используй частотный анализ

@Viktorrus · 11.10.2021, 16:06

seytu, Для того, что бы выяснить какая кодировка, обычно по очереди используют разные кодировки, пока не получат читабельный текст. Затем загружают файл как текстовый с найденной кодировкой. Полученную строку можно уже сохранить в файл используя кодировку utf-8.

Сообщение от seytu

выводить первые 2048 символов этого файла в кодировке UTF-8.

Не понятно, что здесь имеется ввиду. Символы имеют одинаковый вид не зависимо от кодировки, а вот байты, соответствующие этим символам, для каждых кодировок будут разные. Символы кириллицы в utf-8 занимают 2 байта.
Что бы автоматически определить, какая кодировка, нужно или знать последовательности бит сответствующие разным кодировкам, или если известно, что каждый символ при неизвестной кодировке занимает один байт, загружать в цикле по одному байту, используя разные кодировки, и проверять, является ли полученный символ одним из символов кириллицы из алфавита русских букв.

@seytu · 11.10.2021, 21:33 **[ТС]**

Viktorrus, да, тут с условиями беда, как и с загрузкой файлов. Эти задачи из олимпиады по "искусственному интеллекту". Благодарю за ответ

@Viktorrus · 12.10.2021, 22:35

seytu, Оказалось все на много проще.
Пишите список кодировок и в цикле по очереди подставляете кодировки в строку

Python
1
file = open("data.txt", encoding=cod)

, где cod котировка из списка.
Например

Python
1
cod = 'CP866'

Проверил, если кодировки не совпадают, то возникает исключение. Нужно отлавливать исключение и переходить на проверку следующей кодировки. Когда исключения не будет, то это и будет правильная кодировка для этого файла.

Будет время, нужно будет написать такой код. Такая проверка пригодится на практике.

@mentor_1990 · 13.10.2021, 13:36

Удалось в итоге хоть одну задачу загрузить без ошибок в эту олимпиаду?

@Orisphera · 14.10.2021, 19:45

Viktorrus, у меня не получается: тестовый текст на ISO-8859-5 открывается и в cp866, и в cp1251, но я не знаю, как в Python обозначаются KOI8R и CP10007

@Viktorrus · 14.10.2021, 20:31

Orisphera, Кодирование текстовой информации.
https://studfile.net/preview/3176799/page:3/

Добавлено через 10 минут
Orisphera, Проверил. В питоне работает обозначение KOI8-R

@u235 · 14.10.2021, 20:39

Orisphera, ближе к концу страницы есть таблица с кодировками. https://docs.python.org/3/libr... ule-codecs

@Viktorrus · 14.10.2021, 20:59

Orisphera, В общем что касается KOI8R, то просто нужно писать KOI8-R. А вот что касается CP10007 то это кодировка для Макинтоша и в Виндосе не работает.
u235, говорил про частотный анализ и я натолкнулся в интернете, что кто то определяет эту кодировку с помощью частотного анализа, но не рассказывает как.
В общем нужно искать, как использовать частотный анализ.
Или найти по ссылке, которую дал u235, как выглядят байты кодировки CP10007.

@Garry Galler · 14.10.2021, 21:03

Сообщение от Viktorrus

Проверил, если кодировки не совпадают, то возникает исключение.

Не всегда.
Пока текст содержит только латинские символы, он может быть в какой угодно изначальной кодировке, но прочитается не только в ней, но и в UTF-8, так как первые 128 символов UTF-8 обратно совместимы с ASCII кодировками.

Python
1
2
3
4
5
>>> open("test","w", encoding="866").write("hello")
5
>>> open("test","r", encoding="utf-8").read()
'hello'
>>>

И наоборот:

Python
1
2
3
4
5
>>> open("test","w", encoding="utf-8").write("hello")
5
>>> open("test","r", encoding="866").read()
'hello'
>>>

@Viktorrus · 14.10.2021, 21:19

Orisphera, Поиск не находит кодировку CP10007 в питоновской документации. Может она просто по другому называется в питоне? Там есть кодировка макинтошевская mac_cyrillic. Но только название. Шаблон двоичного кода не дается.

Добавлено через 4 минуты

Сообщение от Garry Galler

Пока текст содержит только латинские символы

В данном случае в условии говорится именно о кириллице. Поэтому если кодировка не совпадает, то возникает исключение. Правда если файл содержит битые байты, то все время будет исключение. Но в условии вроде говорится о не поврежденных файлах.

Добавлено через 1 минуту
Вероятно для кодировки Макинтоша нужно использовать частотный анализ, как говорят некоторые. Но тут я не в курсе.

Добавлено через 4 минуты
Если найти в интернете, формат кодировки CP10007, то выводя байты в двоичном виде, можно было бы определить наличие кодировки CP10007.

@Garry Galler · 14.10.2021, 21:35

https://wikichi.ru/wiki/Charset_detection

Примеры статистич. детектирования кодировки можно найти в исходниках любого charset detector'а. Да хоть в питоновском chardet.

Добавлено через 14 минут
P.S. У всех этих кодировок (кроме одной) буква ё имеет разные коды.
Несложно найти и другие отличия чтобы безошибочно отделять одну от другой

Python
1
2
3
4
5
6
7
8
9
10
11
12
>>> "ё".encode("CP866")
b'\xf1'
>>> "ё".encode("CP1251")
b'\xb8'
>>> "ё".encode("KOI8-R")
b'\xa3'
>>> "ё".encode("ISO-8859-5")
b'\xf1'
>>> "ё".encode("maccyrillic")
b'\xde'
>>> 
>>>

@Viktorrus · 14.10.2021, 21:51

Кириллица Macintosh (компьютеров фирмы Apple), она же CP10007, довольно близка к CP1251. Не зарегистрирована в IANA, но часто обозначается как x-mac-cyrillic.
https://ru.wikibooks.org/wiki/... 1%82%D0%B0

Добавлено через 2 минуты
Так как меня кодировка в Макинтоше не интересует, и я не хочу тратить время, что бы с этим разбираться, то я выхожу из дискуссии.

Добавлено через 1 минуту
О, Garry Galler, дал решение.

Добавлено через 2 минуты
Garry Galler, Одно но. В условии говорится о некотором файле, и там может не быть буквы ё.

@Garry Galler · 14.10.2021, 22:26

Сообщение от Viktorrus

В условии говорится о некотором файле, и там может не быть буквы ё.

Да, понятно.
На самом деле я знаю решение - там используются множества с кодами символов из каждой кодировки.
"""
'cp866' а-п = 0xA0 - 0xAF, р-я = 0xE0 - 0xEF, ё = 0xF1
'koi8-r' а-я = 0xC0 - 0xDF, ё = 0xA3
'iso8859_5' а-я = 0xD0 - 0xEF, ё = 0xF1
'cp1251' а-я = 0xE0 - 0xFF, ё = 0xB8
'mac_cyrillic' а-ю = 0xE0 - 0xFE, ё,я = 0xDE, 0xDF
"""

И путем простого подсчета вхождений каждого байта в каждый набор определяется победитель: кто набрал больше вхождений, того и ~~тапки~~ кодировка :-)

@waltermelon · 15.10.2021, 02:30

seytu, если нашел решение этой или других задач, не мог бы ты скинуть в личку свою телегу, буду весьма благодарен :)

@Temaaaaaaaaaaaa · 15.10.2021, 23:04

Всем добрый вечер!) А какой в итоге код?

@Lord_Voodoo · 15.10.2021, 23:46

seytu, уважаемый, не надо никаких личек, поделитесь с общественностью решением, если нежалко. Заранее благодарен за понимание и сотрудничество.

@Garry Galler · 16.10.2021, 00:27

Не по теме:

Сообщение от Lord_Voodoo

поделитесь с общественностью решением,

Нет у них кода :-) Он есть у меня (и еще в одном месте). Но я не дам. Жадина-говядина...

@Lord_Voodoo · 16.10.2021, 01:54

Garry Galler, это дело абсолютно добровольное...

Новые блоги и статьи Все статьи Все блоги /
BOINC: 22 года — и всё ещё работает Programma_Boinc 12.03.2026 BOINC: 22 года — и всё ещё работает Дэвид Андерсон написал ретроспективу. Кратко: в 2001 году он ушёл из United Devices, где был CTO, и за несколько месяцев написал ядро BOINC — клиент, сервер,. . .	SDL3 для Desktop (MinGW): Создаём пустое окно с нуля для 2D-графики на SDL3, Си и C++ 8Observer8 10.03.2026 Содержание блога Финальные проекты на Си и на C++: hello-sdl3-c. zip hello-sdl3-cpp. zip Результат:	Установка CMake и MinGW 13.1 для сборки С и C++ приложений из консоли и из Qt Creator в EXE 8Observer8 10.03.2026 Содержание блога MinGW - это коллекция инструментов для сборки приложений в EXE. CMake - это система сборки приложений. Здесь описаны базовые шаги для старта программирования с помощью CMake и. . .	Как дизайн сайта влияет на конверсию: 7 решений, которые реально повышают заявки Neotwalker 08.03.2026 Многие до сих пор воспринимают дизайн сайта как “красивую оболочку”. На практике всё иначе: дизайн напрямую влияет на то, оставит человек заявку или уйдёт через несколько секунд. Даже если у вас. . .
Модульная разработка через nuget packages DevAlt 07.03.2026 Сложившийся в . Net-среде способ разработки чаще всего предполагает монорепозиторий в котором находятся все исходники. При создании нового решения, мы просто добавляем нужные проекты и имеем. . .	Модульный подход на примере F# DevAlt 06.03.2026 В блоге дяди Боба наткнулся на такое определение: В этой книге («Подход, основанный на вариантах использования») Ивар утверждает, что архитектура программного обеспечения — это структуры,. . .	Управление камерой с помощью скрипта OrbitControls.js на Three.js: Вращение, зум и панорамирование 8Observer8 05.03.2026 Содержание блога Финальная демка в браузере работает на Desktop и мобильных браузерах. Итоговый код: orbit-controls-threejs-js. zip. Сканируйте QR-код на мобильном. Вращайте камеру одним пальцем,. . .	SDL3 для Web (WebAssembly): Синхронизация спрайтов SDL3 и тел Box2D 8Observer8 04.03.2026 Содержание блога Финальная демка в браузере. Итоговый код: finish-sync-physics-sprites-sdl3-c. zip На первой гифке отладочные линии отключены, а на второй включены:. . .

@seytu 1 / 1 / 0 Регистрация: 07.05.2020 Сообщений: 22

	Определение кодировки и перевод в UTF-8 11.10.2021, 08:45. Показов 25135. Ответов 29 Метки нет (Все метки) Алекс получил от своего друга Никиты из России электронное письмо с вложенным текстовым файлом (не маленьким – точно больше 100Кб) и был удивлен его содержимым. Алекс давно знаком с Никитой и знает, что текст точно на русском языке, что он все пишет в нижнем регистре, и что Никита принципиально не использует никакие кодировки, кроме однобайтовых. Алекс хотел бы определить, какую кодировку Никита использовал (CP866 (DOS), CP1251 (Windows), KOI8R, ISO-8859-5, cp10007(MacOS)), и увидеть первые 2048 символов этого файла в кодировке UTF-8. Воспользуйтесь имеющимися данными, напишите программу, которая будет определять автоматически определять кодировку и выводить первые 2048 символов этого файла в кодировке UTF-8. Буду очень благодарен) Идей нет совсем 1

@u235 5516 / 2869 / 571 Регистрация: 07.11.2019 Сообщений: 4,760
	11.10.2021, 13:53
	seytu, используй частотный анализ 1

@seytu 1 / 1 / 0 Регистрация: 07.05.2020 Сообщений: 22
	11.10.2021, 21:33 [ТС]
	Viktorrus, да, тут с условиями беда, как и с загрузкой файлов. Эти задачи из олимпиады по "искусственному интеллекту". Благодарю за ответ 0

@mentor_1990 0 / 0 / 0 Регистрация: 13.10.2021 Сообщений: 1
	13.10.2021, 13:36
	Удалось в итоге хоть одну задачу загрузить без ошибок в эту олимпиаду? 0

@Orisphera 0 / 0 / 0 Регистрация: 14.10.2021 Сообщений: 4
	14.10.2021, 19:45
	Viktorrus, у меня не получается: тестовый текст на ISO-8859-5 открывается и в cp866, и в cp1251, но я не знаю, как в Python обозначаются KOI8R и CP10007 0

@Viktorrus 1732 / 970 / 199 Регистрация: 22.02.2018 Сообщений: 2,693 Записей в блоге: 6
	14.10.2021, 20:31
	Orisphera, Кодирование текстовой информации. https://studfile.net/preview/3176799/page:3/ Добавлено через 10 минут Orisphera, Проверил. В питоне работает обозначение KOI8-R 0

@u235 5516 / 2869 / 571 Регистрация: 07.11.2019 Сообщений: 4,760
	14.10.2021, 20:39
	Orisphera, ближе к концу страницы есть таблица с кодировками. https://docs.python.org/3/libr... ule-codecs 0

@Viktorrus 1732 / 970 / 199 Регистрация: 22.02.2018 Сообщений: 2,693 Записей в блоге: 6
	14.10.2021, 20:59
	Orisphera, В общем что касается KOI8R, то просто нужно писать KOI8-R. А вот что касается CP10007 то это кодировка для Макинтоша и в Виндосе не работает. u235, говорил про частотный анализ и я натолкнулся в интернете, что кто то определяет эту кодировку с помощью частотного анализа, но не рассказывает как. В общем нужно искать, как использовать частотный анализ. Или найти по ссылке, которую дал u235, как выглядят байты кодировки CP10007. 0

@Viktorrus 1732 / 970 / 199 Регистрация: 22.02.2018 Сообщений: 2,693 Записей в блоге: 6
	14.10.2021, 21:51
	Кириллица Macintosh (компьютеров фирмы Apple), она же CP10007, довольно близка к CP1251. Не зарегистрирована в IANA, но часто обозначается как x-mac-cyrillic. https://ru.wikibooks.org/wiki/... 1%82%D0%B0 Добавлено через 2 минуты Так как меня кодировка в Макинтоше не интересует, и я не хочу тратить время, что бы с этим разбираться, то я выхожу из дискуссии. Добавлено через 1 минуту О, Garry Galler, дал решение. Добавлено через 2 минуты Garry Galler, Одно но. В условии говорится о некотором файле, и там может не быть буквы ё. 0

@waltermelon 0 / 0 / 0 Регистрация: 15.10.2021 Сообщений: 1
	15.10.2021, 02:30
	seytu, если нашел решение этой или других задач, не мог бы ты скинуть в личку свою телегу, буду весьма благодарен :) 0

@Temaaaaaaaaaaaa 0 / 0 / 0 Регистрация: 15.10.2021 Сообщений: 1
	15.10.2021, 23:04
	Всем добрый вечер!) А какой в итоге код? 0

@Lord_Voodoo Почетный модератор 8785 / 2538 / 144 Регистрация: 07.03.2007 Сообщений: 11,873
	15.10.2021, 23:46
	seytu, уважаемый, не надо никаких личек, поделитесь с общественностью решением, если нежалко. Заранее благодарен за понимание и сотрудничество. 0

@Lord_Voodoo Почетный модератор 8785 / 2538 / 144 Регистрация: 07.03.2007 Сообщений: 11,873
	16.10.2021, 01:54
	Garry Galler, это дело абсолютно добровольное... 0