Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.89/9: Рейтинг темы: голосов - 9, средняя оценка - 4.89
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173

Как можно максимально быстро найти строки, где присутствуют символы в неверной кодировке

21.10.2014, 11:42. Показов 2087. Ответов 4
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день!

Файлы в кодировке CP866 (DOS), но иногда там встречается текст козябрами - с нарушением кодировки. Подскажите, как можно максимально быстро найти строки, где присутствуют козябры?

Я искал через такой регекс:
C#
1
Regex reKozabras = new Regex("([ЄҐ*Ј§ўЇ®«¤¦¬Ў‰–“Љ…Ќѓ?™‡•љ”›ЂЏђЋ‹„†ќџ‘Њ€’њЃћ]+)", RegexOptions.Compiled);
но получается очень медленно, нужно быстрей. Может быть есть какие встроенные функции для определения кодировки?
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
21.10.2014, 11:42
Ответы с готовыми решениями:

Вывод строки в неверной кодировке
// Lab4_Seravin(UC8-31).cpp: определяет точку входа для консольного приложения. // #include "stdafx.h" #include...

Ответ приходит в неверной кодировке. Как исправить?
Посылаю GET запрос на русский сайт, а в ответ вместо русских символов приходят кракозябры. Как решить проблему? Пробовал так: ...

Даны две строки.Выведите на экран все символы которые присутствуют как в первой так и во второй строке
Даны две строки.Выведите на экран все символы которые присутствуют как в первой так и во второй строке. Задача подразумевает полноценное...

4
Эксперт .NET
 Аватар для kolorotur
17823 / 12973 / 3382
Регистрация: 17.09.2011
Сообщений: 21,261
21.10.2014, 12:02
Здравствуйте!

Если в файле имеются строки в разных кодировках, но "в целом" файл нужно считывать в одной кодировке, то козябры в этом случае проще будет отсеять на стадии считывания байтов, потому что потом вступит в дело конвертер и похерит значения символов из оригинальной кодировки.

Для этого сначала гляньте в таблицу кодовой страницы и составьте хэш (или диапазоны) символов, которые вы считаете козябрами.
Потом считывайте байты из файла и проверяйте, принадлежит ли считанное значение к списку козябров. Если принадлежит, то пропускайте его, если не принадлежит, то скармливайте декодеру.

Переход на новую строку по всех кодировках имеет значение 10.
1
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173
21.10.2014, 12:17  [ТС]
А если так?

Файл читаю в кодировке DOS. Если декодер не может определить символ, то он все равно ставит ведь какой-то символ из данной кодировки. Может быть достаточно тогда искать вот эти символы:

Є
є
Ї
ї
Ў
ў

которые представлены внизу таблицы по вашей ссылки?

Добавлено через 1 минуту
Я проверил файлы регексом:"([ЄҐ*Ј§ўЇ®«¤¦¬Ў‰–“Љ…Ќѓ˜™‡•љ”›ЂЏђЋ‹„†ќџ‘Њ€’ њЃћ]+)".

При этом в файлах определяются именно вот эти 6 символов козябр, что перечислил выше. Можно сократить регекс до 6 символов, будет искать быстрее.
0
Эксперт .NET
 Аватар для kolorotur
17823 / 12973 / 3382
Регистрация: 17.09.2011
Сообщений: 21,261
21.10.2014, 12:33
Цитата Сообщение от Suppir Посмотреть сообщение
Файл читаю в кодировке DOS. Если декодер не может определить символ, то он все равно ставит ведь какой-то символ из данной кодировки.
Тут сначала нужно определиться, что значит "декодер не может определить символ".
Для некоторых кодовых страниц — той же Unicode, например, действительно определены некоторые нелегальные значения, вместо которых декодер поставит символ-заглушку. Однако в таблице CP866 таких символов не определено, потому для декодера любое значение в интервале 0-255 будет легальным символом, соответствующим считанному значению.

Цитата Сообщение от Suppir Посмотреть сообщение
Может быть достаточно тогда искать вот эти символы
Этого недостаточно.
Гляньте, например, на промежуток 176-223 — там все символы можно считать козябрами, а вы ведь не знаете в какой другой кодировке может быть та или иная строка.

Вот, например, я создаю новый файл и записываю туда строку "мама мыла раму" сначала в кодировке CP866, а потом в кодировке UTF8, после чего считываю весь текст в кодировке CP866 и вот что получаю на выходе:
"мама мыла раму╨╝╨░╨╝╨░ ╨╝╤Л╨╗╨░ ╤А╨░╨╝╤Г"
Ваш регекс это бы не поймал.

Вообще, я должен поправиться: здесь же не обязательно считывать байты, достаточно создать таблицу символов-козябр, а потом проверять эти символы с уже считанной строки и отрезать их. С байтами будет просто проще, т.к. можно проверять по диапазонам, ибо козябры идут подряд, а вот в уже декодированной в юникод строке придется искать по таблице.
0
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173
21.10.2014, 12:40  [ТС]
Понятно. Кстати, вот такие символы могут быть в оригинальном тексте, поскольку там присутствуют таблицы, нарисованные псевдографикой:

╨╝╨
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
21.10.2014, 12:40
Помогаю со студенческими работами здесь

Запись в файл в неверной кодировке
не могу понять в чём дело.. заработался уже.. в файле выводятся каракули((( а нужно записать 5 строк и считать их на консоль... ...

Запись в XML в неверной кодировке
и Почему на выходя после создания xml в пхп отображается $item -> appendChild( $dom_items->createElement...

Текст отображается в неверной кодировке

Почему строка в неверной кодировке?
Возникла проблема при записи конфигурации в текстовый файл из программы. Вначале у меня был такой код: OutputStreamWriter OSW = new...

Чтение файла в неверной кодировке
Работая с текстовым файлом столкнулся с ошибкой чтения. Используя свой любимый метод: Dim zap As New...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
5
Ответ Создать тему
Новые блоги и статьи
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование . \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json> Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом. # Check if. . .
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так: https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347 Основана на STM32F303RBT6. На борту пять. . .
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу, и светлой Луне. В мире покоя нет и люди не могут жить в тишине. А жить им немного лет.
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила» «Время-Деньги» «Деньги -Пуля»
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru