Форум программистов, компьютерный форум, киберфорум
Python: Решение задач
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 
Рейтинг 4.93/121: Рейтинг темы: голосов - 121, средняя оценка - 4.93
1 / 1 / 0
Регистрация: 07.05.2020
Сообщений: 22

Определение кодировки и перевод в UTF-8

11.10.2021, 08:45. Показов 24768. Ответов 29
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Алекс получил от своего друга Никиты из России электронное письмо с вложенным текстовым файлом (не маленьким – точно больше 100Кб) и был удивлен его содержимым. Алекс давно знаком с Никитой и знает, что текст точно на русском языке, что он все пишет в нижнем регистре, и что Никита принципиально не использует никакие кодировки, кроме однобайтовых. Алекс хотел бы определить, какую кодировку Никита использовал (CP866 (DOS), CP1251 (Windows), KOI8R, ISO-8859-5, cp10007(MacOS)), и увидеть первые 2048 символов этого файла в кодировке UTF-8. Воспользуйтесь имеющимися данными, напишите программу, которая будет определять автоматически определять кодировку и выводить первые 2048 символов этого файла в кодировке UTF-8.


Буду очень благодарен)
Идей нет совсем
1
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
11.10.2021, 08:45
Ответы с готовыми решениями:

Определение кодировки в строке и преобразование ее в UTF-8
С помощью этого куска кода я получаю html страницы и записываю как обычную строку в response. Внутри этого кода я регулярными выражениями...

Перевод из кодировки UTF - 8 в ANSI
Всем привет! Пишу прогу на линухе, результаты работы вывожу в html файл. Так вот когда открываю файл для прочтения с помощью браузера там...

Перевод из кодировки UTF-8 в CP866
Нужно сделать функцию, которая переводит текст из кодировки UTF-8 в CP866. То есть с нуля, так-как нельзя использовать стандартные функции....

29
5514 / 2867 / 571
Регистрация: 07.11.2019
Сообщений: 4,752
11.10.2021, 13:53
seytu, используй частотный анализ
1
1732 / 970 / 199
Регистрация: 22.02.2018
Сообщений: 2,693
Записей в блоге: 6
11.10.2021, 16:06
seytu, Для того, что бы выяснить какая кодировка, обычно по очереди используют разные кодировки, пока не получат читабельный текст. Затем загружают файл как текстовый с найденной кодировкой. Полученную строку можно уже сохранить в файл используя кодировку utf-8.
Цитата Сообщение от seytu Посмотреть сообщение
выводить первые 2048 символов этого файла в кодировке UTF-8.
Не понятно, что здесь имеется ввиду. Символы имеют одинаковый вид не зависимо от кодировки, а вот байты, соответствующие этим символам, для каждых кодировок будут разные. Символы кириллицы в utf-8 занимают 2 байта.
Что бы автоматически определить, какая кодировка, нужно или знать последовательности бит сответствующие разным кодировкам, или если известно, что каждый символ при неизвестной кодировке занимает один байт, загружать в цикле по одному байту, используя разные кодировки, и проверять, является ли полученный символ одним из символов кириллицы из алфавита русских букв.
0
1 / 1 / 0
Регистрация: 07.05.2020
Сообщений: 22
11.10.2021, 21:33  [ТС]
Viktorrus, да, тут с условиями беда, как и с загрузкой файлов. Эти задачи из олимпиады по "искусственному интеллекту". Благодарю за ответ
0
1732 / 970 / 199
Регистрация: 22.02.2018
Сообщений: 2,693
Записей в блоге: 6
12.10.2021, 22:35
seytu, Оказалось все на много проще.
Пишите список кодировок и в цикле по очереди подставляете кодировки в строку
Python
1
file = open("data.txt", encoding=cod)
, где cod котировка из списка.
Например
Python
1
cod = 'CP866'
Проверил, если кодировки не совпадают, то возникает исключение. Нужно отлавливать исключение и переходить на проверку следующей кодировки. Когда исключения не будет, то это и будет правильная кодировка для этого файла.

Будет время, нужно будет написать такой код. Такая проверка пригодится на практике.
0
0 / 0 / 0
Регистрация: 13.10.2021
Сообщений: 1
13.10.2021, 13:36
Удалось в итоге хоть одну задачу загрузить без ошибок в эту олимпиаду?
0
0 / 0 / 0
Регистрация: 14.10.2021
Сообщений: 4
14.10.2021, 19:45
Viktorrus, у меня не получается: тестовый текст на ISO-8859-5 открывается и в cp866, и в cp1251, но я не знаю, как в Python обозначаются KOI8R и CP10007
0
1732 / 970 / 199
Регистрация: 22.02.2018
Сообщений: 2,693
Записей в блоге: 6
14.10.2021, 20:31
Orisphera, Кодирование текстовой информации.
https://studfile.net/preview/3176799/page:3/

Добавлено через 10 минут
Orisphera, Проверил. В питоне работает обозначение KOI8-R
0
5514 / 2867 / 571
Регистрация: 07.11.2019
Сообщений: 4,752
14.10.2021, 20:39
Orisphera, ближе к концу страницы есть таблица с кодировками. https://docs.python.org/3/libr... ule-codecs
0
1732 / 970 / 199
Регистрация: 22.02.2018
Сообщений: 2,693
Записей в блоге: 6
14.10.2021, 20:59
Orisphera, В общем что касается KOI8R, то просто нужно писать KOI8-R. А вот что касается CP10007 то это кодировка для Макинтоша и в Виндосе не работает.
u235, говорил про частотный анализ и я натолкнулся в интернете, что кто то определяет эту кодировку с помощью частотного анализа, но не рассказывает как.
В общем нужно искать, как использовать частотный анализ.
Или найти по ссылке, которую дал u235, как выглядят байты кодировки CP10007.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
14.10.2021, 21:03
Цитата Сообщение от Viktorrus Посмотреть сообщение
Проверил, если кодировки не совпадают, то возникает исключение.
Не всегда.
Пока текст содержит только латинские символы, он может быть в какой угодно изначальной кодировке, но прочитается не только в ней, но и в UTF-8, так как первые 128 символов UTF-8 обратно совместимы с ASCII кодировками.
Python
1
2
3
4
5
>>> open("test","w", encoding="866").write("hello")
5
>>> open("test","r", encoding="utf-8").read()
'hello'
>>>
И наоборот:
Python
1
2
3
4
5
>>> open("test","w", encoding="utf-8").write("hello")
5
>>> open("test","r", encoding="866").read()
'hello'
>>>
0
1732 / 970 / 199
Регистрация: 22.02.2018
Сообщений: 2,693
Записей в блоге: 6
14.10.2021, 21:19
Orisphera, Поиск не находит кодировку CP10007 в питоновской документации. Может она просто по другому называется в питоне? Там есть кодировка макинтошевская mac_cyrillic. Но только название. Шаблон двоичного кода не дается.

Добавлено через 4 минуты
Цитата Сообщение от Garry Galler Посмотреть сообщение
Пока текст содержит только латинские символы
В данном случае в условии говорится именно о кириллице. Поэтому если кодировка не совпадает, то возникает исключение. Правда если файл содержит битые байты, то все время будет исключение. Но в условии вроде говорится о не поврежденных файлах.

Добавлено через 1 минуту
Вероятно для кодировки Макинтоша нужно использовать частотный анализ, как говорят некоторые. Но тут я не в курсе.

Добавлено через 4 минуты
Если найти в интернете, формат кодировки CP10007, то выводя байты в двоичном виде, можно было бы определить наличие кодировки CP10007.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
14.10.2021, 21:35
https://wikichi.ru/wiki/Charset_detection

Примеры статистич. детектирования кодировки можно найти в исходниках любого charset detector'а. Да хоть в питоновском chardet.

Добавлено через 14 минут
P.S. У всех этих кодировок (кроме одной) буква ё имеет разные коды.
Несложно найти и другие отличия чтобы безошибочно отделять одну от другой
Python
1
2
3
4
5
6
7
8
9
10
11
12
>>> "ё".encode("CP866")
b'\xf1'
>>> "ё".encode("CP1251")
b'\xb8'
>>> "ё".encode("KOI8-R")
b'\xa3'
>>> "ё".encode("ISO-8859-5")
b'\xf1'
>>> "ё".encode("maccyrillic")
b'\xde'
>>> 
>>>
2
1732 / 970 / 199
Регистрация: 22.02.2018
Сообщений: 2,693
Записей в блоге: 6
14.10.2021, 21:51
Кириллица Macintosh (компьютеров фирмы Apple), она же CP10007, довольно близка к CP1251. Не зарегистрирована в IANA, но часто обозначается как x-mac-cyrillic.
https://ru.wikibooks.org/wiki/... 1%82%D0%B0

Добавлено через 2 минуты
Так как меня кодировка в Макинтоше не интересует, и я не хочу тратить время, что бы с этим разбираться, то я выхожу из дискуссии.

Добавлено через 1 минуту
О, Garry Galler, дал решение.

Добавлено через 2 минуты
Garry Galler, Одно но. В условии говорится о некотором файле, и там может не быть буквы ё.
0
Эксперт Python
5438 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
14.10.2021, 22:26
Цитата Сообщение от Viktorrus Посмотреть сообщение
В условии говорится о некотором файле, и там может не быть буквы ё.
Да, понятно.
На самом деле я знаю решение - там используются множества с кодами символов из каждой кодировки.
"""
'cp866' а-п = 0xA0 - 0xAF, р-я = 0xE0 - 0xEF, ё = 0xF1
'koi8-r' а-я = 0xC0 - 0xDF, ё = 0xA3
'iso8859_5' а-я = 0xD0 - 0xEF, ё = 0xF1
'cp1251' а-я = 0xE0 - 0xFF, ё = 0xB8
'mac_cyrillic' а-ю = 0xE0 - 0xFE, ё,я = 0xDE, 0xDF
"""


И путем простого подсчета вхождений каждого байта в каждый набор определяется победитель: кто набрал больше вхождений, того и тапки кодировка :-)
1
0 / 0 / 0
Регистрация: 15.10.2021
Сообщений: 1
15.10.2021, 02:30
seytu, если нашел решение этой или других задач, не мог бы ты скинуть в личку свою телегу, буду весьма благодарен :)
0
0 / 0 / 0
Регистрация: 15.10.2021
Сообщений: 1
15.10.2021, 23:04
Всем добрый вечер!) А какой в итоге код?
0
Почетный модератор
 Аватар для Lord_Voodoo
8785 / 2538 / 144
Регистрация: 07.03.2007
Сообщений: 11,873
15.10.2021, 23:46
seytu, уважаемый, не надо никаких личек, поделитесь с общественностью решением, если нежалко. Заранее благодарен за понимание и сотрудничество.
0
16.10.2021, 00:27

Не по теме:

Цитата Сообщение от Lord_Voodoo Посмотреть сообщение
поделитесь с общественностью решением,
Нет у них кода :-) Он есть у меня (и еще в одном месте). Но я не дам. Жадина-говядина...

0
Почетный модератор
 Аватар для Lord_Voodoo
8785 / 2538 / 144
Регистрация: 07.03.2007
Сообщений: 11,873
16.10.2021, 01:54
Garry Galler, это дело абсолютно добровольное...
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
16.10.2021, 01:54
Помогаю со студенческими работами здесь

Перевод кодировки из utf-8 в windows-1251
Такая проблема: распарсил некоторый xml файл, у которого в атрибут значится кодировка utf-8. Затем решил вывести кое-какие элементы из xml,...

Программа для конвертации тектового файла из кодировки UTF-8 в UTF-16
Привет. Как можно реализовать эту программу на чистом си?

Разные кодировки файлов (ASCII, UTF-8, UTF-16)
Привет всем! Нужно написать программу поиска файлов, содержащих заданную строку. Т.е. пользователь выбирает начальный каталог, задаёт...

Кодировки UTF-8 и UTF-16
Здравствуйте! Есть один вопрос! Например я создал файл test.php в кодировке UTF-8. @header('Content-type: text/html;...

Ошибка кодировки UTF-8
Всем привет проблема следующая формируется xml файл но почему то бьет ошибку раньше все было нормально может кто подскажет в чем может быть...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Ответ Создать тему
Новые блоги и статьи
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США. Нашел на реддите интересную статью под названием «Кто-нибудь знает, где получить бесплатный компьютер или. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru