|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
||||||
Array<Byte> в System::String25.04.2014, 10:48. Показов 6064. Ответов 15
Метки нет (Все метки)
Как преобразовать массив байтов в строку в кодировке UTF-8?
Сейчас делаю вот так:
0
|
||||||
| 25.04.2014, 10:48 | |
|
Ответы с готовыми решениями:
15
Как преобразовать System::String в System::String^ Преобразование между типами System::String, char*, wchar_t*, std::string и др. Конфузы с русскими буквами при переводе из System::String^ в std::string |
|
Администратор
|
|
| 28.04.2014, 16:49 | |
|
iPet3o, проверьте длину char_len, видимо, он меньше предполагаемой длины строки.
Проблема может быть из-за разница размеров символов: в строке каждый символ (т.е. char) по 16 бит, а переменная типа byte - 8 бит, попробуйте умножить размер на 2.
0
|
|
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
||
| 28.04.2014, 17:22 [ТС] | ||
|
Добавлено через 44 секунды и char имеет размер 1 байт, в с/с++ по крайней мере
0
|
||
|
Администратор
|
||||||
| 28.04.2014, 18:31 | ||||||
|
iPet3o, во-первых, нужно знать что существуют многобайтовые и однобайтовые кодировки. Кодировка UTF8 является многобайтовой и может использовать до 4 байтов для представления одного символа. Более того - количество байтов на один символ внутри одной строки может меняться. Например, если в UTF8 строке одновременно есть символы латинского алфавита и кириллицы.
Во-вторых, тип char из C/C++ это символ однобайтововой кодировки и именно поэтому он занимает 1 байт. В то же время есть типы wchar_t, TCHAR для работы с многобайтовыми кодировками. В-третьих, при чтениии по частям и интерпретации текстового файла в многобайтовой кодировке следует использовать класс Decoder который умеет сохранять состояние между вызовами. Ведь при чтении по частям возможно ситуация когда в конце буфера будет неполная последовательность байтов. Общий алгоримт такой: читаем последовательность байтов в массив, определяем кол-во символов которые можно декодировать с помощью метода GetCharCount(), выделяем память под массив символов, декодируем массив байтов в массив символов с помощью GetChars(), приклеиваем их к строке. Повторяем до конца файла. Вот пример: Кликните здесь для просмотра всего текста
0
|
||||||
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
|
| 28.04.2014, 20:38 [ТС] | |
|
В моем случае есть массив байтов, в них хранятся коды для символов UTF-8 в однобайтовой кодировке (всегда считал что 8 в названии и означает один байт), но при преобразовании этого массива получается какая-то фигня.
0
|
|
|
Администратор
|
|
| 29.04.2014, 00:12 | |
|
iPet3o, ты заблуждаешься. Кодировка UTF-8 принадлежит семейству Unicode и является многобайтовой. Цифра 8 говорит о минимальном количестве битов выделяемых для хранения символа. Так для арабских цифр, букв латинского алфавита и символов пунктуации используется один байт; для кириллицы - два; для японского алфавита 4 или даже 6 байтов. При этом, повторюсь, кол-во байтов может быть разным если в строке встречаются символы из разных языков. Поэтому совет tezaurismosis умножать на 2 (то есть исходить из того что 1 символ = 2 байтам) является неверным. Именно поэтому твой код неправильно декодирует русский текст - в буфер попадают не все байты для символа и попытка интерпретировать этот байт как символ приводит к некорректному результату. Пример который я привел вопроизводит эту ситуацию, но справляется с ней благодаря использованию класса Decoder который декодирует только полный набор байтов, а те что не удалось пока разбрать оставляет на будущее.
0
|
|
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
|
| 29.04.2014, 00:19 [ТС] | |
|
дело в том, что такое происходит не только с русским текстом, а вообще с любым. "qqq" станет "q�", "11" == "1�" и т.д.
0
|
|
|
Администратор
|
|
| 29.04.2014, 00:22 | |
|
iPet3o, надо видеть весь код чтобы точно понять проблему, но у меня вызывает подозрение аргумент char_len + 1, который ты передаешь функции GetString
0
|
|
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
|
| 29.04.2014, 00:24 [ТС] | |
|
в последний байт я записываю '\0' иначе вообще ничего не печатается.
0
|
|
|
Администратор
|
|
| 29.04.2014, 00:29 | |
|
iPet3o, в .NET не нужно использовать \0 в качестве конца строки. Он может понадобиться разве что при взаимодействии с неуправляемым кодом.
Приведи весь свой код чтения данных в массив и декодирования строки.
0
|
|
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
||||||
| 29.04.2014, 00:35 [ТС] | ||||||
OwenGlendower, как-то так
0
|
||||||
|
Администратор
|
|
| 29.04.2014, 01:17 | |
|
iPet3o, по этому огрызку опять трудно что-то понять. Можно только продолжать гадать. В строке №4 ты передаешь неправильное кол-во байтов. Следует передавать encodedBytes->Length, а не string->Length. Далее непонятно что делается с переменной data, откуда берутся данные для конструктора Bitfield в строке №23. Выложи короткий пример иллюстрирующий проблему и который я смогу откомпилировать и запустить.
Раскажи также что именно ты пытаешься сделать? Это какой-то кодировщик где байты строки как-то преобразуются, а потом переводятся обратно в строку?
0
|
|
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
|
| 29.04.2014, 01:23 [ТС] | |
|
Лабораторная работа для универа. Некое подобие QR кода.
0
|
|
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
|
| 29.04.2014, 01:27 [ТС] | |
|
Сначала создаем код (выбираем тип кодирования Byte), сохраняем, открываем в соответствующей форме.
P.S. интерфейс ужасен, а код еще ужаснее
0
|
|
|
Администратор
|
|
| 29.04.2014, 02:07 | |
Сообщение было отмечено iPet3o как решение
Решение
iPet3o, замена int len = string->Length; на int len = encodedBytes->Length; в методе GraphicalCode::Generate() вроде решило проблему. Дальше смотреть не стал.
Запомни раз и навсегда - UTF8 многобайтовая кодировка. Кол-во байтов не обязано совпадать с кол-вом символов!
1
|
|
|
1 / 1 / 0
Регистрация: 17.04.2013
Сообщений: 34
|
|
| 29.04.2014, 10:03 [ТС] | |
|
Спасибо огромное, недели две над этой проблемой мучился.
0
|
|
| 29.04.2014, 10:03 | |
|
Помогаю со студенческими работами здесь
16
Преобразование System::String^ в std::string System::String^ vs stl::std::string Конвертация из System::String^ в std::string Как преобразовать тип System::String ^ в string? (или что можно сделать ещё для работы перегруженного оператора ostream::operator<<) Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Уведомление о неверно выбранном значении справочника
Maks 06.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "НарядПутевка", разработанного в конфигурации КА2.
Задача: уведомлять пользователя, если в документе выбран неверный склад. . .
|
Установка Qt Creator для C и C++: ставим среду, CMake и MinGW без фреймворка Qt
8Observer8 05.04.2026
Среду разработки Qt Creator можно установить без фреймворка Qt. Есть отдельный репозиторий для этой среды: https:/ / github. com/ qt-creator/ qt-creator, где можно скачать установщик, на вкладке Releases:. . .
|
AkelPad-скрипты, структуры, и немного лирики..
testuser2 05.04.2026
Такая программа, как AkelPad существует уже давно, и также давно существуют скрипты под нее. Тем не менее, прога живет, периодически что-то не спеша дополняется, улучшается. Что меня в первую очередь. . .
|
Отображение реквизитов в документе по условию и контроль их заполнения
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеСпецтехники", разработанного в конфигурации КА2.
Данный документ берёт данные из другого нетипового документа. . .
|
|
Фото всей Земли с борта корабля Orion миссии Artemis II
kumehtar 04.04.2026
Это первое подобное фото сделанное человеком за 50 лет. Снимок называют новым вариантом легендарной фотографии «The Blue Marble» 1972 года, сделанной с борта корабля «Аполлон-17». Новое фото. . .
|
Вывод диалогового окна перед закрытием, если документ не проведён
Maks 04.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2.
Задача: реализовать программный контроль на предмет проведения документа. . .
|
Программный контроль заполнения реквизитов табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2.
Задача:
1. Реализовать контроль заполнения реквизита. . .
|
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение:
DISM / Online / Add-Capability / CapabilityName:WMIC~~~~
Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
|