Форум программистов, компьютерный форум, киберфорум
Java EE (J2EE)
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.63/8: Рейтинг темы: голосов - 8, средняя оценка - 4.63
0 / 0 / 0
Регистрация: 26.05.2023
Сообщений: 4

Decoder from "WINDOWS-1251" to "UTF-8"

26.05.2023, 12:05. Показов 2676. Ответов 7

Студворк — интернет-сервис помощи студентам
Доброго времени суток!

Получаем ответ от банка в виде xml response.txt, парсим строку //response/pg_failure_description, видим что ответ закодирован. Кодировка в WINDOWS-1251. Пробую декодировать его в читаемый формат, чтобы записать в бд, делаю следующее (Java 11 на борту):

Java
1
2
byte[] bytes = encodedString.getBytes(Charset.forName("Windows-1251"));
                    return new String(bytes, StandardCharsets.UTF_8);
получаю ответ вот так - ?????�???? ?�???�???? ???�?�???�?�?� ?????�???????�????

Пробовал и через InputStream:

Java
1
2
3
4
5
6
7
8
byte[] bytes = encodedString.getBytes(Charset.forName("Windows-1251"));
                    InputStream in = new ByteArrayInputStream(bytes);
                    BufferedReader reader = new BufferedReader(new InputStreamReader(in, StandardCharsets.UTF_8));
                    String inputLine;
                    while ((inputLine = reader.readLine()) != null) {
                        content.append(inputLine);
                    }
                    return content.toString();
результат такой же - ??�???� ?�?�?�?�????????????�???� ?? ???????�?�?�??? ????�??�?�?????, ???�??�?????�?? ?? ?�?�????

Видать с обычным пребразованием не обойтись, и нужно копать дальше, а вот куда дальше копать - не знаю. Раньше не работал с кодировками. Прошелся по stackOverFlow и не нашел ответа. Подскажите, куда дальше смотреть.
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
26.05.2023, 12:05
Ответы с готовыми решениями:

Как создать рабочий XML в UTF-8? У меня исправно создаётся Windows-1251, но с UTF-8 проблема
Доброго дня, форумчане. Подскажите, что делать, чтобы создавался и открывался без ошибок XML-файл? Сейчас у меня такой код и если...

UTF-16 -> cp-1251(windows-1251)
У меня есть кириллическая строка UTF-16, которая выглядит как Хотелось бы конвертнуть её в cp-1251, чтобы она была читаема. Сколько...

UTF-8 to WINDOWS-1251
Здравствуйте! Надо вот чего... Есть строка в UTF-8. После перекодировки функцией `UTF8ToString` выползает НЕ-UTF-8. Только хреново...

7
Эксперт функциональных языков программированияЭксперт Java
 Аватар для korvin_
4575 / 2774 / 491
Регистрация: 28.04.2012
Сообщений: 8,779
26.05.2023, 12:12
Цитата Сообщение от Jake228 Посмотреть сообщение
Видать с обычным пребразованием не обойтись
Просто ты не понимешь, что делаешь.

Цитата Сообщение от Jake228 Посмотреть сообщение
Java
1
2
byte[] bytes = encodedString.getBytes(Charset.forName("Windows-1251"));
return new String(bytes, StandardCharsets.UTF_8);
Что тут происходит, по-твоему? Прочитай документацию к getBytes.
0
0 / 0 / 0
Регистрация: 26.05.2023
Сообщений: 4
31.05.2023, 19:55  [ТС]
Цитата Сообщение от korvin_ Посмотреть сообщение
Что тут происходит, по-твоему? Прочитай документацию к getBytes
закодировал строку encodedString в последовательность байтов, используя кодировку Windows-1251. Потом возвращаю декодированный массив байтов в UTF_8 кодировке, который передаем в String для получения читаемую строку. Так не работает как я понял.

И теперь надо руками создать таблицу маппинга как здесь https://stackoverflow.com/ques... tf8-string ??
0
Эксперт функциональных языков программированияЭксперт Java
 Аватар для korvin_
4575 / 2774 / 491
Регистрация: 28.04.2012
Сообщений: 8,779
31.05.2023, 21:05
Цитата Сообщение от Jake228 Посмотреть сообщение
закодировал строку encodedString
Не закодировал.

Цитата Сообщение от Jake228 Посмотреть сообщение
Потом возвращаю декодированный массив байтов в UTF_8 кодировке
Где ты его возвращаешь а UTF-8 кодировке? Ты его возвращаешь в Windows-1251 кодировке.

Цитата Сообщение от Jake228 Посмотреть сообщение
который передаем в String для получения читаемую строку.
А теперь ты этот массив байт в Win-1251 кодировке пытаешься интерпретировать как UTF-8.

Цитата Сообщение от Jake228 Посмотреть сообщение
И теперь надо руками создать таблицу маппинга как здесь https://stackoverflow.com/ques... tf8-string ??
Нет, не надо.

Надо просто прочитать файл с указанием кодировки, в которой он закодирован, и всё.
0
0 / 0 / 0
Регистрация: 26.05.2023
Сообщений: 4
31.05.2023, 21:53  [ТС]
Цитата Сообщение от korvin_ Посмотреть сообщение
Где ты его возвращаешь а UTF-8 кодировке? Ты его возвращаешь в Windows-1251 кодировке.
Java
1
return new String(bytes, StandardCharsets.UTF_8);
имел ввиду здесь возвращаю новую строку путем декодирования, разве нет?

Цитата Сообщение от korvin_ Посмотреть сообщение
Надо просто прочитать файл с указанием кодировки, в которой он закодирован, и всё.
Java
1
2
byte[] bytes = text.getBytes(Charset.forName("Windows-1251"));
return new String(bytes, Charset.forName("Windows-1251"));
возвращает мне "?????µ???? ?¶???·???? ???»?°???µ?¶?° ?????µ???????µ????" если я правильно понял тебя
0
Эксперт функциональных языков программированияЭксперт Java
 Аватар для korvin_
4575 / 2774 / 491
Регистрация: 28.04.2012
Сообщений: 8,779
01.06.2023, 08:15
Лучший ответ Сообщение было отмечено Jake228 как решение

Решение

Цитата Сообщение от Jake228 Посмотреть сообщение
путем декодирования, разве нет?
Декодирования из UTF-8, но у тебя bytes — не UTF-8.

Цитата Сообщение от Jake228 Посмотреть сообщение
если я правильно понял тебя
Не правильно.

Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
public final class TextDecoding {
 
    private static final String TEXT = "Мама мыла раму";
 
    public static void main(String[] args) throws IOException {
        System.out.println("T: " + TEXT);
        write();
 
        {   // A
            System.out.print("A: ");
            final var file = Paths.get("response.txt");
            final var content = Files.readString(file, Charset.forName("Windows-1251"));
            System.out.println(content);
        }
 
        {   // B
            System.out.print("B: ");
            final var file = Paths.get("response.txt");
            final var bytes = Files.readAllBytes(file);
            final var content = new String(bytes, Charset.forName("Windows-1251"));
            System.out.println(content);
        }
 
        {
            // C
            System.out.print("C: ");
            final var file = Paths.get("response.txt");
            try (var input = new BufferedReader(new InputStreamReader(Files.newInputStream(file), Charset.forName("Windows-1251")))) {
                final var content = new StringBuilder();
                String line;
                while ((line = input.readLine()) != null) {
                    content.append(line);
                }
                System.out.println(content.toString());
            }
        }
    }
 
    static void write() throws IOException {
        Files.writeString(Paths.get("response.txt"), TEXT, Charset.forName("Windows-1251"));
    }
}
Почитай, подумай.
1
Администратор
Эксперт .NET
 Аватар для OwenGlendower
18286 / 14209 / 5368
Регистрация: 17.03.2014
Сообщений: 28,889
Записей в блоге: 1
01.06.2023, 12:01
Цитата Сообщение от Jake228 Посмотреть сообщение
Получаем ответ от банка в виде xml response.txt,
Интересная ситуация. Кодировка XML файла указана как UTF-8, но текст не в UTF-8 и не в Windows-1251. Онлайн декодеры не могут справиться что намекает то что текст мог подвергнуться многократному неверному кодированию. Я бы начал с проверки кода получения ответа от банка. Возможно там есть ошибка.
0
0 / 0 / 0
Регистрация: 26.05.2023
Сообщений: 4
01.06.2023, 14:27  [ТС]
Цитата Сообщение от OwenGlendower Посмотреть сообщение
но текст не в UTF-8 и не в Windows-1251. Онлайн декодеры не могут справиться что намекает то что текст мог подвергнуться многократному неверному кодированию
действительно в файле что-то не кодируемое прислали (достал из логов этот ответ), но есть и кодированные тексты, которые записались в БД, например "Время жизни платежа превышено" или "Сумма превышает допустимый лимит на карте. "
Онлайн декодеры их "расшифровывают" нормально

Добавлено через 2 часа 8 минут
Цитата Сообщение от korvin_ Посмотреть сообщение
Почитай, подумай
спасибо, понял твою суть

оказывается я тупанул, изначальная кодировка было в ISO_8859_1
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
01.06.2023, 14:27
Помогаю со студенческими работами здесь

из UTF-8 в Windows-1251
Как строку в формате UTF-8 перекодировать в Windows-1251? Добавлено через 16 минут Существуют ли какие-нибудь функции?

Перекодировка из UTF-8 в Windows-1251
Здравствуйте! Подскажите, пожалуйста, максимально быстрый и эффективный алгоритм перекодировки из UTF-8 в Windows-1251. Я нашёл в...

Перекодирование из windows-1251 в utf-8
есть программа которая берет вордовский файл и конвертирует его в .txt. Но вот на выходе файл в кодировке windows-1251, а мне нужен на...

Парсинг из windows-1251 в UTF-8
Здравствуйте! Существует модуль для DLE который парсит тв программу с tv.mail.ru. Кодировка моего сайта - UTF-8, а программа на...

Перекодировка с windows-1251 в utf-8
как можно написать процедуру на pl/sql, чтобы перекодировал с windows-1251 в utf-8 ?


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Символьное дифференцирование
igorrr37 13.02.2026
/ * Программа принимает математическое выражение в виде строки и выдаёт его производную в виде строки и вычисляет значение производной при заданном х Логарифм записывается как: (x-2)log(x^2+2) -. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL3_image
8Observer8 10.02.2026
Содержание блога Библиотека SDL3_image содержит инструменты для расширенной работы с изображениями. Пошагово создадим проект для загрузки изображения формата PNG с альфа-каналом (с прозрачным. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru