Форум программистов, компьютерный форум, киберфорум
С++ для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.68/75: Рейтинг темы: голосов - 75, средняя оценка - 4.68
0 / 0 / 0
Регистрация: 19.10.2014
Сообщений: 18

Как распознать кодировку текста при вводе из файла?

04.02.2015, 22:39. Показов 15147. Ответов 7
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Имеется файл с текстом, написанный в каком-то текстовом редакторе на каком-то человеческом языке.

Программа должна считывать этот текст и сортировать его строки по алфавиту. Сортировка происходит по буквам первого слова (это не суть). Чтобы правильно определить расположение символов в кодировке друг относительно друга, необходимо работать в соответствующей кодировке.

Какими способами можно распознать кодировку текста? (Visual Studio 2010)

Добавлено через 11 минут
Так, понял, что это невозможно.

Допустим, есть на входе название кодировки. Как, зная наименование кодировки, сравнить коды данных символов?
0
Лучшие ответы (1)
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
04.02.2015, 22:39
Ответы с готовыми решениями:

Распознать кодировку текста в формате СМС *.vmg
Здравствуйте. Не знаю в какой раздел форума написать. Имеются файлы *.vmg с экспортированными СМС из телефона Samsung C3322. Но телефон...

Как правильно задать кодировку текста при работе с содержимым файла через TextStream?
Добрый день. Скорее всего я в очередной раз задам нубский вопрос, но я предварительно читал материалы по этому поводу и как-то не нашел,...

Как при вводе распознать действия и запомнить их порядок
Как при вводе распознать действия и запомнить их порядок. X\rightarrow Y \wedge Z

7
 Аватар для Oleg_Ponomaryov
7 / 7 / 3
Регистрация: 14.04.2012
Сообщений: 32
04.02.2015, 22:57
екстовый файл в любой кодировке - это всего лишь набор кодов символов. Поэтому определить кодировку можно только с помощью достаточно сложного анализа, основываясь как на известных признаках каждой из кодировок, так и на заранее указанных характеристиках текста в файле (например, только кириллица, исключительно осмысленный текст, а не набор символов и т.д.).

Задача, у вас, я так понимаю, учебная. И по сложности своей она гораздо уступает задаче определения кодировки. Поэтому вряд ли ваш преподаватель предполагал определение кодировки (если только это не указано явно в задании) и разумно будет просто сделать программу, нормально работающую в какой-то одной кодировке и указать это в пояснительной записке, если такая вообще требуется.

Добавлено через 7 минут
Если ставить задачу так, что кодировка указывается заранее, нужно хотя бы примерно очертить рамки списка всех возможных кодировок, которые могут быть использованы. Вот, например, из Вики список распространённых кодировок. Сами понимаете, что писать работу с каждой из них в несложной учебной задаче - не совсем разумно.

Так что повторюсь, если препод не задал именно определять кодировку, возьмите обычный поток файлового ввода ifstream, файл с набором слов буквами латинского алфавита (просто на английском языке) и без лишних символов, сделайте для такого варианта программу и не парьтесь.
0
0 / 0 / 0
Регистрация: 19.10.2014
Сообщений: 18
04.02.2015, 22:59  [ТС]
Цитата Сообщение от Oleg_Ponomaryov Посмотреть сообщение
определение кодировки
Суть в том, чтобы подчинить механизм ввода условиям конкретной кодировки. Столкнулся с проблемой, пытаясь сортировать получаемые из блокнотного TXT символы.

На free pascal удалось сделать сортировку строк начинающихся с чего угодно ...
вот взгляните (уберите лишнее расширение у exe)
words.txt
dictionary_sort.exe.doc
0
 Аватар для Oleg_Ponomaryov
7 / 7 / 3
Регистрация: 14.04.2012
Сообщений: 32
04.02.2015, 23:35
Ну так а причём здесь определение кодировки? У вас есть программа, она работает с одним файлом ANSI, в котором есть как кириллица, так и латиница, выводит в такой же ANSI файл, ни определение кодировки, ни вообще разных кодировок нет. Не пробовал проверять вашу программу с файлами в других кодировках, но и смысла в этом нет - сейчас вы используете ANSI, в неё есть и русские, и английские буквы, а больше для задания, я так понимаю, и не надо. C ANSI в C++ без проблем работают потоки ifstream/ofstream и типы char/string, ничего необычного не нужно, как не нужно никакого определения кодировки - работайте себе дальше с этими ANSI файлами.
0
0 / 0 / 0
Регистрация: 19.10.2014
Сообщений: 18
04.02.2015, 23:45  [ТС]
Вот в том-то и проблема, что читает из блокнота нормально, печатает в блокнот - тоже по-русски.
А вот в самой программе он держит символы в массиве и сортирует их, оперируя вообще не тем, что читает и выводит )))


Вот скриншот вывода тестового проекта - тут он считал из TXT написанные подряд латинский и русский алфавиты. И вывел их на консоль. Именно с этими символами он и работает. Тут код и через равно соответствующий символ.
Кликните здесь для просмотра всего текста
Когда использовал unsigned char было то же, только с 0 до 255.


Что характерно, вывод этой кракозябры в TXT даёт верные алфавиты) Но пока оно в программе крутится, сортируются только латинские
0
 Аватар для Oleg_Ponomaryov
7 / 7 / 3
Регистрация: 14.04.2012
Сообщений: 32
05.02.2015, 01:22
Лучший ответ Сообщение было отмечено Битон как решение

Решение

Берём файл ввода с двумя алфавитами (кодировка ANSI, виндузятский Блокнот в ней по-умолчанию сохраняет, если не ошибаюсь):
Code
1
abcdefghigklmnopqrstuvwxyzабвгдежзийклнмопрстуфхцчшщэюя
Берём тестовую программу:
C++
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
#include <iostream>
#include <fstream>
 
using namespace std;
 
int main()
{
    setlocale(LC_ALL, "Russian"); //Поддержка отображения кириллицы в консоли
    ifstream fin("in.txt", ios::in); //Поток файлового ввода
    ofstream fout("out.txt", ios::out); //Поток файлового вывода
    unsigned char ch; //Переменная для считывания и хранения символа
 
    while(true) //Бесконечный цикл
    {
        fin >> ch; //Ввод следующего символа из файла ввода
 
        if (fin.eof()) break; //Цикл прерывается, если был достигнут конец файла
 
        //Вывод на консоль
        cout << ch //Вывод символа
             << " - "
             << static_cast<int>(ch) //Вывод кода символа
             << endl;
 
        //Аналогично для файлового вывода
        fout << ch << " - " << static_cast<int>(ch) << endl;
    }
 
    cin.get(); //Задержка программы до нажатия Enter
    return 0;
}
И в консоли, и в файле вывода получаем такой результат:
Code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
a - 97
b - 98
c - 99
d - 100
e - 101
f - 102
g - 103
h - 104
i - 105
g - 103
k - 107
l - 108
m - 109
n - 110
o - 111
p - 112
q - 113
r - 114
s - 115
t - 116
u - 117
v - 118
w - 119
x - 120
y - 121
z - 122
а - 224
б - 225
в - 226
г - 227
д - 228
е - 229
ж - 230
з - 231
и - 232
й - 233
к - 234
л - 235
н - 237
м - 236
о - 238
п - 239
р - 240
с - 241
т - 242
у - 243
ф - 244
х - 245
ц - 246
ч - 247
ш - 248
щ - 249
э - 253
ю - 254
я - 255
Как видим, всё отлично работает, а сами коды символов идут аккурат по порядку, что сводит сортировку по алфавиту к сортировке по возрастанию численного значения кода.
2
0 / 0 / 0
Регистрация: 19.10.2014
Сообщений: 18
05.02.2015, 01:34  [ТС]
Спасибо за пример!)
Сам склонялся к setlocale, почитав пару статей.

А можно в 26 строке вместо
Цитата Сообщение от Oleg_Ponomaryov Посмотреть сообщение
static_cast<int>(ch)
использовать
" (int) ch "
?

И последний вопрос: если вместо
Цитата Сообщение от Oleg_Ponomaryov Посмотреть сообщение
setlocale(LC_ALL, "Russian");
использовать setlocale (LC_ALL, "") или setlocale (LC_ALL, .OCP) ?
Не решит ли OCP проблему для других языков?
0
 Аватар для Oleg_Ponomaryov
7 / 7 / 3
Регистрация: 14.04.2012
Сообщений: 32
05.02.2015, 02:02
Цитата Сообщение от Битон Посмотреть сообщение
" (int) ch "
Можно, но не нужно. Тип в скобках - это приведение типов родом из С, а cast - достояние C++. И дело вот в чём: кроме static_cast в C++ есть ещё целый ряд приведений типов (о которых настоятельно советую почитать), каждое из которых имеет собственные особенности. Так что, использовав определённый cast (static, dynamic и т.д.), программист точно знает, каким образом будет производится привидение. Как будет производится привидение с использованием скобок из С - тайна, покрытая мраком Кроме того, приведения с cast банально более заметны в коде, что является ещё одним весомым плюсом.

Цитата Сообщение от Битон Посмотреть сообщение
использовать setlocale (LC_ALL, "") или setlocale (LC_ALL, .OCP) ?
setlocale(LC_ALL, ".OCP") приводит к некорректному отображению кириллицы.
setlocale(LC_ALL, "") работает без проблем, но выбор сразу всей локали вряд ли рационален.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
05.02.2015, 02:02
Помогаю со студенческими работами здесь

Кодировка текста при вводе в таблицу из файла
Здравствуйте! У меня проблемма: есть файл txt формат такой: &lt;слово&gt;&lt;\t&gt;&lt;слово&gt;&lt;\n&gt; ... и так много строк. есть таблица с...

Как правильно распознать конец файла при чтении
Здравствуйте, есть проблема. Обнаружилось зацикливание и причина while (!file.eof()), вот. В двух словах в файле лежит информация для...

Как экранировать кавычки при вводе текста?
Ребята! хелп, в ощм благодарю вас за ващи советы, в первом вопросе, но тут возникла одна проблема. Моя простая программа содержит лекции по...

Как изменить кодировку при открытии файла
Пишу блокнот Открываю txt файл а у меня квадратики(( как изменить кодировку?? помогите VB 10 Pro

Как при чтении файла указать кодировку
Всем доброго времени суток! Есть переменная Dim SB As New System.Text.StringBuilder в ней содержится текст, который отображается...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
8
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru