|
0 / 0 / 0
Регистрация: 19.10.2014
Сообщений: 18
|
|
Как распознать кодировку текста при вводе из файла?04.02.2015, 22:39. Показов 15147. Ответов 7
Метки нет (Все метки)
Имеется файл с текстом, написанный в каком-то текстовом редакторе на каком-то человеческом языке.
Программа должна считывать этот текст и сортировать его строки по алфавиту. Сортировка происходит по буквам первого слова (это не суть). Чтобы правильно определить расположение символов в кодировке друг относительно друга, необходимо работать в соответствующей кодировке. Какими способами можно распознать кодировку текста? (Visual Studio 2010) Добавлено через 11 минут Так, понял, что это невозможно. Допустим, есть на входе название кодировки. Как, зная наименование кодировки, сравнить коды данных символов?
0
|
|
| 04.02.2015, 22:39 | |
|
Ответы с готовыми решениями:
7
Как при вводе распознать действия и запомнить их порядок |
|
7 / 7 / 3
Регистрация: 14.04.2012
Сообщений: 32
|
|
| 04.02.2015, 22:57 | |
|
екстовый файл в любой кодировке - это всего лишь набор кодов символов. Поэтому определить кодировку можно только с помощью достаточно сложного анализа, основываясь как на известных признаках каждой из кодировок, так и на заранее указанных характеристиках текста в файле (например, только кириллица, исключительно осмысленный текст, а не набор символов и т.д.).
Задача, у вас, я так понимаю, учебная. И по сложности своей она гораздо уступает задаче определения кодировки. Поэтому вряд ли ваш преподаватель предполагал определение кодировки (если только это не указано явно в задании) и разумно будет просто сделать программу, нормально работающую в какой-то одной кодировке и указать это в пояснительной записке, если такая вообще требуется. Добавлено через 7 минут Если ставить задачу так, что кодировка указывается заранее, нужно хотя бы примерно очертить рамки списка всех возможных кодировок, которые могут быть использованы. Вот, например, из Вики список распространённых кодировок. Сами понимаете, что писать работу с каждой из них в несложной учебной задаче - не совсем разумно. Так что повторюсь, если препод не задал именно определять кодировку, возьмите обычный поток файлового ввода ifstream, файл с набором слов буквами латинского алфавита (просто на английском языке) и без лишних символов, сделайте для такого варианта программу и не парьтесь.
0
|
|
|
0 / 0 / 0
Регистрация: 19.10.2014
Сообщений: 18
|
||
| 04.02.2015, 22:59 [ТС] | ||
|
На free pascal удалось сделать сортировку строк начинающихся с чего угодно ... вот взгляните (уберите лишнее расширение у exe) words.txt dictionary_sort.exe.doc
0
|
||
|
7 / 7 / 3
Регистрация: 14.04.2012
Сообщений: 32
|
|
| 04.02.2015, 23:35 | |
|
Ну так а причём здесь определение кодировки? У вас есть программа, она работает с одним файлом ANSI, в котором есть как кириллица, так и латиница, выводит в такой же ANSI файл, ни определение кодировки, ни вообще разных кодировок нет. Не пробовал проверять вашу программу с файлами в других кодировках, но и смысла в этом нет - сейчас вы используете ANSI, в неё есть и русские, и английские буквы, а больше для задания, я так понимаю, и не надо. C ANSI в C++ без проблем работают потоки ifstream/ofstream и типы char/string, ничего необычного не нужно, как не нужно никакого определения кодировки - работайте себе дальше с этими ANSI файлами.
0
|
|
|
0 / 0 / 0
Регистрация: 19.10.2014
Сообщений: 18
|
|
| 04.02.2015, 23:45 [ТС] | |
|
Вот в том-то и проблема, что читает из блокнота нормально, печатает в блокнот - тоже по-русски.
А вот в самой программе он держит символы в массиве и сортирует их, оперируя вообще не тем, что читает и выводит ))) Вот скриншот вывода тестового проекта - тут он считал из TXT написанные подряд латинский и русский алфавиты. И вывел их на консоль. Именно с этими символами он и работает. Тут код и через равно соответствующий символ. Кликните здесь для просмотра всего текста
Когда использовал unsigned char было то же, только с 0 до 255.
Что характерно, вывод этой кракозябры в TXT даёт верные алфавиты) Но пока оно в программе крутится, сортируются только латинские
0
|
|
|
7 / 7 / 3
Регистрация: 14.04.2012
Сообщений: 32
|
||||||||||||||||
| 05.02.2015, 01:22 | ||||||||||||||||
Сообщение было отмечено Битон как решение
Решение
Берём файл ввода с двумя алфавитами (кодировка ANSI, виндузятский Блокнот в ней по-умолчанию сохраняет, если не ошибаюсь):
2
|
||||||||||||||||
|
0 / 0 / 0
Регистрация: 19.10.2014
Сообщений: 18
|
|||
| 05.02.2015, 01:34 [ТС] | |||
|
Спасибо за пример!)
Сам склонялся к setlocale, почитав пару статей. А можно в 26 строке вместо " (int) ch " ? И последний вопрос: если вместо Не решит ли OCP проблему для других языков?
0
|
|||
|
7 / 7 / 3
Регистрация: 14.04.2012
Сообщений: 32
|
|||
| 05.02.2015, 02:02 | |||
Кроме того, приведения с cast банально более заметны в коде, что является ещё одним весомым плюсом.setlocale(LC_ALL, "") работает без проблем, но выбор сразу всей локали вряд ли рационален.
1
|
|||
| 05.02.2015, 02:02 | |
|
Помогаю со студенческими работами здесь
8
Кодировка текста при вводе в таблицу из файла
Как экранировать кавычки при вводе текста? Как изменить кодировку при открытии файла Как при чтении файла указать кодировку Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога
Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
|
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование
. \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json>
Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом.
# Check if. . .
|
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так:
https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347
Основана на STM32F303RBT6.
На борту пять. . .
|
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
|
|
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу,
и светлой Луне.
В мире
покоя нет
и люди
не могут жить в тишине.
А жить им немного лет.
|
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила»
«Время-Деньги»
«Деньги -Пуля»
|
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога
Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
|
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога
Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
|