Форум программистов, компьютерный форум, киберфорум
Java
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.50/18: Рейтинг темы: голосов - 18, средняя оценка - 4.50
3 / 3 / 7
Регистрация: 19.10.2009
Сообщений: 225

Автоматическое определение подходящей кодировки.

23.03.2011, 09:18. Показов 3376. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Есть текст, который может содержать любые символы. Как определить для него наиболее подходящую кодировку при конвертировании в xml? Наиболее подходящей считается кодировка, при которой создается наименьшее количество символьных сущностей для некодируемых символов.
Первое, что приходит в голову - выбрать из текста все символы, не входящие в ANSI диапазон и перебрать все имеющиеся в наличии кодировки. Какая из кодировок способна закодировать большинство символов, та и будет самой подходящей. Конечно, нужно учитывать количество вхождений каждого символа и примерный размер выходного файла, чтобы выбрать наиболее оптимальный вариант.
Но возможно, есть лучшее решение. Никто с этим не сталкивался?
0
Лучшие ответы (1)
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
23.03.2011, 09:18
Ответы с готовыми решениями:

Определение кодировки страницы
Мне необходимо определить кодировку страницу, решение нашёл, но возникла проблема. HttpClient client = new DefaultHttpClient(); ...

Определение кодировки строки и преобразование
Есть 3 текста в разных кодировках (ASCII, Windows-1251, UTF-8). Необходимо определить кодировку каждой строки и преобразовать в UTF-8,...

Автоматическое определение кодировки клиента в Java-чате
Структура системы в кратце: есть апплет чата есть java-сервер, посредством которого апплеты чата общаются друг с другом. Трабл:...

2
1 / 1 / 0
Регистрация: 15.02.2010
Сообщений: 311
23.03.2011, 12:42
Я не очень понимаю, чего Вы паритесь и почему UTF8 не подходит... эта кодировка пишет первые 128 символов ASCII как 1 байт, а все прочие как 2 байта... и экономно, и эффективно.
0
3 / 3 / 7
Регистрация: 19.10.2009
Сообщений: 225
24.03.2011, 09:16  [ТС]
Лучший ответ Сообщение было отмечено Coresh DRAW! как решение

Решение

1) Размер файла в UTF-8 формате в 2-3 раза больше.
2) Попробуйте запустить следующую програмку:
Java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
try
{
 StringBuilder
  text_1 = new StringBuilder(0xFFFF),
  text_2 = new StringBuilder(0xFFFF);
 
 BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream('result.txt'), 'UTF-8'));
 
 for(char c = Character.MIN_VALUE; c<Character.MAX_VALUE; c++)
 {
  writer.write(c);
  text_1.append(c);
 }
 
 writer.close();
 
 BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream('result.txt'), 'UTF-8'));
 
 int b;
 while((b = reader.read())!=-1)
  text_2.append((char) b);
 
 reader.close();
 System.out.println(text_1.toString().equals(text_2.toString()));
}catch(Exception e)
{}
и обьяснить, почему результат 'false'.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
24.03.2011, 09:16
Помогаю со студенческими работами здесь

Запишите в подходящей сигнатуре определение коммутативного кольца
3. Запишите в подходящей сигнатуре определение коммутативного кольца

Автоматическое переключение кодировки
Есть ли такой тег?

Определение и смена кодировки
Ситуация такая что с удаленного сайта скрипт получает строку. Сайт может быть в любой кодировке и через заголовки ее не отследить. ...

Определение кодировки файла
Помогите определить кодировку файла(файл текстовый). Имеется набор файлов в различной кодировке, проблема в том что при отображении...

Определение кодировки текста
Решил попробовать создать Декодер Текста, вот у меня возникло несколько вопросов... 1) все ли кодировки я перечислил? я так думаю что не...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Функция заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
10 пpимет, которые всегда сбываются
Maks 31.03.2026
1. Чтобы, наконец, пришла маршрутка, надо закурить. Если сигарета последняя, маршрутка придет еще до второй затяжки даже вопреки расписанию. 2. Нaдоели зима и снег? Не надо переезжать. Достаточно. . .
Перемещение выделенных строк ТЧ из одного документа в другой
Maks 31.03.2026
Реализация из решения ниже выполнена на примере нетипового документа "ВыдачаОборудованияНаСпецтехнику" с единственной табличной частью "ОборудованиеИКомплектующие" разработанного в конфигурации КА2. . . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru