|
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173
|
||||||
Как можно максимально быстро найти строки, где присутствуют символы в неверной кодировке21.10.2014, 11:42. Показов 2087. Ответов 4
Метки нет (Все метки)
Добрый день!
Файлы в кодировке CP866 (DOS), но иногда там встречается текст козябрами - с нарушением кодировки. Подскажите, как можно максимально быстро найти строки, где присутствуют козябры? Я искал через такой регекс:
0
|
||||||
| 21.10.2014, 11:42 | |
|
Ответы с готовыми решениями:
4
Вывод строки в неверной кодировке Ответ приходит в неверной кодировке. Как исправить? Даны две строки.Выведите на экран все символы которые присутствуют как в первой так и во второй строке |
|
17823 / 12973 / 3382
Регистрация: 17.09.2011
Сообщений: 21,261
|
|
| 21.10.2014, 12:02 | |
|
Здравствуйте!
Если в файле имеются строки в разных кодировках, но "в целом" файл нужно считывать в одной кодировке, то козябры в этом случае проще будет отсеять на стадии считывания байтов, потому что потом вступит в дело конвертер и похерит значения символов из оригинальной кодировки. Для этого сначала гляньте в таблицу кодовой страницы и составьте хэш (или диапазоны) символов, которые вы считаете козябрами. Потом считывайте байты из файла и проверяйте, принадлежит ли считанное значение к списку козябров. Если принадлежит, то пропускайте его, если не принадлежит, то скармливайте декодеру. Переход на новую строку по всех кодировках имеет значение 10.
1
|
|
|
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173
|
|
| 21.10.2014, 12:17 [ТС] | |
|
А если так?
Файл читаю в кодировке DOS. Если декодер не может определить символ, то он все равно ставит ведь какой-то символ из данной кодировки. Может быть достаточно тогда искать вот эти символы: Є є Ї ї Ў ў которые представлены внизу таблицы по вашей ссылки? Добавлено через 1 минуту Я проверил файлы регексом:"([ЄҐ*Ј§ўЇ®«¤¦¬Ў‰–“Љ…Ќѓ˜™‡•љ”›ЂЏђЋ‹„†ќџ‘Њ€’ њЃћ]+)". При этом в файлах определяются именно вот эти 6 символов козябр, что перечислил выше. Можно сократить регекс до 6 символов, будет искать быстрее.
0
|
|
|
17823 / 12973 / 3382
Регистрация: 17.09.2011
Сообщений: 21,261
|
||||
| 21.10.2014, 12:33 | ||||
|
Для некоторых кодовых страниц — той же Unicode, например, действительно определены некоторые нелегальные значения, вместо которых декодер поставит символ-заглушку. Однако в таблице CP866 таких символов не определено, потому для декодера любое значение в интервале 0-255 будет легальным символом, соответствующим считанному значению. Гляньте, например, на промежуток 176-223 — там все символы можно считать козябрами, а вы ведь не знаете в какой другой кодировке может быть та или иная строка. Вот, например, я создаю новый файл и записываю туда строку "мама мыла раму" сначала в кодировке CP866, а потом в кодировке UTF8, после чего считываю весь текст в кодировке CP866 и вот что получаю на выходе:
Вообще, я должен поправиться: здесь же не обязательно считывать байты, достаточно создать таблицу символов-козябр, а потом проверять эти символы с уже считанной строки и отрезать их. С байтами будет просто проще, т.к. можно проверять по диапазонам, ибо козябры идут подряд, а вот в уже декодированной в юникод строке придется искать по таблице.
0
|
||||
|
28 / 28 / 11
Регистрация: 08.08.2011
Сообщений: 1,173
|
|
| 21.10.2014, 12:40 [ТС] | |
|
Понятно. Кстати, вот такие символы могут быть в оригинальном тексте, поскольку там присутствуют таблицы, нарисованные псевдографикой:
╨╝╨
0
|
|
| 21.10.2014, 12:40 | |
|
Помогаю со студенческими работами здесь
5
Запись в файл в неверной кодировке Запись в XML в неверной кодировке Текст отображается в неверной кодировке Почему строка в неверной кодировке?
Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
SDL3 для Web (WebAssembly): Реализация движения на Box2D v3 - трение и коллизии с повёрнутыми стенами
8Observer8 20.02.2026
Содержание блога
Box2D позволяет легко создать главного героя, который не проходит сквозь стены и перемещается с заданным трением о препятствия, которые можно располагать под углом, как верхнее. . .
|
Конвертировать закладки radiotray-ng в m3u-плейлист
damix 19.02.2026
Это можно сделать скриптом для PowerShell. Использование
. \СonvertRadiotrayToM3U. ps1 <path_to_bookmarks. json>
Рядом с файлом bookmarks. json появится файл bookmarks. m3u с результатом.
# Check if. . .
|
Семь CDC на одном интерфейсе: 5 U[S]ARTов, 1 CAN и 1 SSI
Eddy_Em 18.02.2026
Постепенно допиливаю свою "многоинтерфейсную плату". Выглядит вот так:
https:/ / www. cyberforum. ru/ blog_attachment. php?attachmentid=11617&stc=1&d=1771445347
Основана на STM32F303RBT6.
На борту пять. . .
|
Камера Toupcam IUA500KMA
Eddy_Em 12.02.2026
Т. к. у всяких "хикроботов" слишком уж мелкий пиксель, для подсмотра в ESPriF они вообще плохо годятся: уже 14 величину можно рассмотреть еле-еле лишь на экспозициях под 3 секунды (а то и больше),. . .
|
|
И ясному Солнцу
zbw 12.02.2026
И ясному Солнцу,
и светлой Луне.
В мире
покоя нет
и люди
не могут жить в тишине.
А жить им немного лет.
|
«Знание-Сила»
zbw 12.02.2026
«Знание-Сила»
«Время-Деньги»
«Деньги -Пуля»
|
SDL3 для Web (WebAssembly): Подключение Box2D v3, физика и отрисовка коллайдеров
8Observer8 12.02.2026
Содержание блога
Box2D - это библиотека для 2D физики для анимаций и игр. С её помощью можно определять были ли коллизии между конкретными объектами и вызывать обработчики событий столкновения. . . .
|
SDL3 для Web (WebAssembly): Загрузка PNG с прозрачным фоном с помощью SDL_LoadPNG (без SDL3_image)
8Observer8 11.02.2026
Содержание блога
Библиотека SDL3 содержит встроенные инструменты для базовой работы с изображениями - без использования библиотеки SDL3_image. Пошагово создадим проект для загрузки изображения. . .
|