|
0 / 0 / 0
Регистрация: 26.10.2015
Сообщений: 9
|
|
Unicode и выбор внутренней кодировки программы27.10.2015, 02:19. Показов 920. Ответов 14
Метки нет (Все метки)
Для Unucode, если в программе посимвольная работа с текстом, то какое лучше выбрать решение в плане кодировки и работы с ней?
На пример, потребуется прыгнуть на 25-й символ. И подобные вещи. Как известно любой юникодовый элемент полностью влазит в 4 байта. И можно было бы просто взять кодировку UTF-32, но как-то жаба давит. Для экономии придумали не выдавать под символы лишних байт, если в них у символа стоят одни нули. Таким образом в UTF-8 размер элемента может сокращаться с 4 до 3, 2 и 1 байт. Такой текст становится экономней хранить, а если ещё однобайтную часть отдать полностью под ASCII, то для ещё удобнее. Но тогда для программиста становится не возможно работать с таким текстом как с обычным массивом, ибо элементы в тексте непредсказуемо разных размеров. Когда только ввели UTF-16 и отсчитывать стали по 2 байта, то временно стало можно с любым текстом работать как с обычным массивом, так как все возможные элементы умещались в этих двух байтах. Но потом в стандарт добавили новые языки и всё снова стало уныло. С этого момента по-простому только UTF-32. Стоит ли выбрать UTF-32 для простой полной поддержки или лучше обрезанную двухбайтовую UTF-16 без всякой египетской письменности и домино? Или может быть всё таки стоит заморочиться на полной поддержке UTF-16 с хренением доп массива начальных байтов каждого элемента? Каков вообще выбор мастеров в этой сфере программирования?
0
|
|
| 27.10.2015, 02:19 | |
|
Ответы с готовыми решениями:
14
Настройка unicode. Ошибка при выполнении программы Преобразование кодировки Unicode в UTF-8 Чтение файла кодировки Unicode |
| 27.10.2015, 02:35 | ||
|
Локализация на мандарине? Или у вас супернапоминалка для русскоязычного пользователя? Если так, то и однобайтного Windows-1251 достаточно.
0
|
||
|
2784 / 1937 / 570
Регистрация: 05.06.2014
Сообщений: 5,602
|
||
| 27.10.2015, 02:47 | ||
|
0
|
||
|
0 / 0 / 0
Регистрация: 26.10.2015
Сообщений: 9
|
||
| 27.10.2015, 03:00 [ТС] | ||
|
Изначально пишу под линуксом, но нужен будет кроссплатформ, и скорее всего кроссфреймворк.
0
|
||
| 27.10.2015, 03:42 | ||
|
IMHO, для начала стоит убедиться, что это нужно хотя бы вам. По ходу работы цели и приоритеты могут меняться. Начинать надо с минимального прототипа, расширяемого по необходимости, а не с проектирования кроссплатформенного монстра на 123 несуществующих языках. Можете почитать блог Alconost, чтобы получить представление о локализации. Не по теме: Из собственного опыта в нескольких проектах (японский, немецкий, иврит), могу сказать, что добавление еще одного шрифта или RTL не самая большая трудность при локализации.
0
|
||
|
7804 / 6568 / 2988
Регистрация: 14.04.2014
Сообщений: 28,705
|
||
| 27.10.2015, 07:01 | ||
|
ОС-то какая?
0
|
||
|
0 / 0 / 0
Регистрация: 26.10.2015
Сообщений: 9
|
|||||
| 27.10.2015, 09:07 [ТС] | |||||
|
Я имею в виду алгоритмы обработки текста, типа парсер чтобы был и пр. Локализация это ведь по большей части пользовательский интерфейс без ввода, который предполагает использование строк, а не отдельных символов. Локализация для меня это отдельная вещь. Вот например одна характерная задача: взять исходный текст или несколько текстов, провести в них поиск с анализом, из найденного склеить новый текст. Пользователь не участвует в выборе параметров поиска. Опять же, потом этот новый текст нужно будет иметь возможность просматривать выхватывая по частям. Похоже на какую-нибудь читалку, но в виде не страниц, а в любом выбранном формате (по словам; по предложениям; по фиксированной длины строке). Ну и выделить чтобы можно было с такого-то по такой-то символ. Я настроен читать файл в массив байт и бегать по этим байтам как-то.
0
|
|||||
| 27.10.2015, 09:27 | ||
|
0
|
||
|
0 / 0 / 0
Регистрация: 26.10.2015
Сообщений: 9
|
||
| 27.10.2015, 11:19 [ТС] | ||
|
0
|
||
|
|
||
| 27.10.2015, 18:32 | ||
|
0
|
||
|
0 / 0 / 0
Регистрация: 26.10.2015
Сообщений: 9
|
||
| 28.10.2015, 09:16 [ТС] | ||
|
Прочитал тут у буржуев, что оказывается повсеместно используется обрезанная двух байтная UTF-16 без заморочек по переключению на 4 байта. Надо бы углубиться в этот увлекательнейший холивар. А пока остановлюсь на варианте определения при загрузке файлов UTF-32 будет или останется 2-х байтный UTF-16; ну и буду иметь в виду ICU.
0
|
||
|
|
||
| 28.10.2015, 10:31 | ||
|
1
|
||
| 28.10.2015, 10:31 | |
|
Помогаю со студенческими работами здесь
15
Ошибка при установке кодировки ASCII в XSL: Unable to translate Unicode character Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Ритм жизни
kumehtar 27.02.2026
Иногда приходится жить в ритме, где дел становится всё больше, а вовлечения в происходящее — всё меньше. Плотный график не даёт вниманию закрепиться ни на одном событии. Утро начинается с быстрых,. . .
|
SDL3 для Web (WebAssembly): Сборка библиотек SDL3 и Box2D из исходников с помощью CMake и Emscripten
8Observer8 27.02.2026
Недавно вышла версия SDL 3. 4. 2 библиотеки SDL3. На странице официальной релиза доступны исходники, готовые DLL (для x86, x64, arm64), а также библиотеки для разработки под Android, MinGW и Visual. . .
|
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога
Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
|
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование
. \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json>
Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом.
# Check if. . .
|
|
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так:
https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347
Основана на STM32F303RBT6.
На борту пять. . .
|
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
|
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу,
и светлой Луне.
В мире
покоя нет
и люди
не могут жить в тишине.
А жить им немного лет.
|
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила»
«Время-Деньги»
«Деньги -Пуля»
|