Форум программистов, компьютерный форум CyberForum.ru

С++ для начинающих

Войти
Регистрация
Восстановить пароль
 
KorPaEv
54 / 30 / 4
Регистрация: 08.07.2011
Сообщений: 187
#1

Алгоритм определения наличия текста в файле. - C++

12.09.2011, 07:42. Просмотров 640. Ответов 9
Метки нет (Все метки)

Всем доброго времени суток.
Собственно вопрос в теме.
Есть произвольный бинарный файл, содержит набор спецсимволов типа %:?*№ и т.д. и текст "Привет, это тест!"
Подскажите где копать, по поводу алгоритма определения текста в файле.
Т.е. моя задача написать функцию, которая вернет мне 1, если файл, помимо спецсимволов содержит текст.
Можно тупо загнать все символы в исключение и сканировать, но это долго и тупо.
Подскажите где можно поискать алгоритмы распознавания текста в файле (точнее наличия текста, для начала) в фйле??
Заранее спасибо.
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
12.09.2011, 07:42     Алгоритм определения наличия текста в файле.
Посмотрите здесь:

Жадный алгоритм для определения последовательности обхода городов. C++
C++ Разработать алгоритм и программу для определения кратчайшего слова в тексте
Составить алгоритм определения последовательности номеров удаляемых спортсменов C++
Алгоритм определения периодичности C++
Алгоритм определения планарности графа C++
Алгоритм определения конца предложения C++
C++ Написать функцию для определения наличия в файле чисел, у которых сумма цифр целой и дробной части равны
После регистрации реклама в сообщениях будет скрыта и будут доступны все возможности форума.
taras atavin
Ушёл с форума.
3569 / 1752 / 91
Регистрация: 24.11.2009
Сообщений: 27,619
12.09.2011, 08:07     Алгоритм определения наличия текста в файле. #2
Такого универсального алгоритма быть не может. Текст в файлах представляется не текстом, то есть не символами, а значениями битов, теми же значениями битов представляются и бинарные данные. Ты нашёл в бинарнике текст AB? Эси. А может это число 16706? Разбирай спецификации тех форматов, файлы которых тебе потенциально могут подсунуть, ищи в них, как кодируется позиция текста и как опознать сам формат.

Добавлено через 4 минуты
"ABC" может оказаться 4276803, "A B" - 4268098. Интерпретация битов - задача программы и только программы, она может и любой спецсимвол интерпретировать, как букву (другая кодировка и все возражения к хелу).
KorPaEv
54 / 30 / 4
Регистрация: 08.07.2011
Сообщений: 187
12.09.2011, 08:12  [ТС]     Алгоритм определения наличия текста в файле. #3
Цитата Сообщение от taras atavin Посмотреть сообщение
Такого универсального алгоритма быть не может. Текст в файлах представляется не текстом, то есть не символами, а значениями битов, теми же значениями битов представляются и бинарные данные. Ты нашёл в бинарнике текст AB? Эси. А может это число 16706? Разбирай спецификации тех форматов, файлы которых тебе потенциально могут подсунуть, ищи в них, как кодируется позиция текста и как опознать сам формат.

Добавлено через 4 минуты
"ABC" может оказаться 4276803, "A B" - 4268098. Интерпретация битов - задача программы и только программы, она может и любой спецсимвол интерпретировать, как букву (другая кодировка и все возражения к хелу).
В том то и дело - предполагается анализатор текста, в котором могут присутствовать битые байты и спецсимволы - получается формат текстовый. Но от этого не легче. Мне надо отфильтровать для начала чистый текст а потом уже его язык анализировать.
Вот и озадачился как определить для начала чистый текст.
taras atavin
Ушёл с форума.
3569 / 1752 / 91
Регистрация: 24.11.2009
Сообщений: 27,619
12.09.2011, 08:18     Алгоритм определения наличия текста в файле. #4
Текст с управляющими последовательностями? Тогда тебе надо опознать кодировку и фактический формат. Опять таки он может быть каким угодно, но в каждой версии есть строго определённые символы начала таких последовательностей и правила определения их длины (как вариант - строго определённые символы конца последовательности, или её фиксированная длина). Копай спецификации возможных фактических форматов и анализируй "в лоб". Иначе нельзя, ни какого универсального флага наличия текста в начале файла не существует, а значит не может быть и универсального алгоритма его проверки.
ValeryLaptev
Эксперт С++
1035 / 814 / 48
Регистрация: 30.04.2011
Сообщений: 1,658
12.09.2011, 08:21     Алгоритм определения наличия текста в файле. #5
KorPaEv, сразу надо определиться: текст в однобайтной кодировке или в многобайтной?
Потому как в зависимости от количество байтов в символе, надо определять, по сколько байтов читать за раз. Если по одному байту - то просто считываем очередную порцию байтов и ищем в нем текст.
Если многобайтная, то считываем очередную порцию много*байт, и ищем в ней текст.
taras atavin
Ушёл с форума.
3569 / 1752 / 91
Регистрация: 24.11.2009
Сообщений: 27,619
12.09.2011, 08:30     Алгоритм определения наличия текста в файле. #6
А может быть и переменной длины, например, UTF-8. Тогда читать байты по одному. Прочитал байт - проверяешь, получился ли вообще символ, или его префикс, потом читаешь следующий байт или в текущий символ, или в следующий.
accept
4819 / 3239 / 165
Регистрация: 10.12.2008
Сообщений: 10,682
12.09.2011, 08:34     Алгоритм определения наличия текста в файле. #7
удали из него все символы, которых не должно быть
taras atavin
Ушёл с форума.
3569 / 1752 / 91
Регистрация: 24.11.2009
Сообщений: 27,619
12.09.2011, 08:35     Алгоритм определения наличия текста в файле. #8
А если бы и сущестовал такой флаг, его бы сразу не было. Вот представь: ты сам сочинил формат текста с бинарными управляющими вставками, а о таком флаге явно не знаешь и не выставил его. Всё, формат без поддержки флага существует, флаг потерял универсальность. И таких девелоперов, не знающих хотя бы по одному флагу каждый, а между собой ни о чём не договаривающихся - всё ИТ сообщество.
KorPaEv
54 / 30 / 4
Регистрация: 08.07.2011
Сообщений: 187
12.09.2011, 08:39  [ТС]     Алгоритм определения наличия текста в файле. #9
Спасибо! Кстати кодировка будет многобайтовая, это осложняет все, может встретиться слово в 1251 битое, битый байт будет юникод например.
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
12.09.2011, 08:52     Алгоритм определения наличия текста в файле.
Еще ссылки по теме:

C++ Алгоритм определения количества цифр в шестнадцатиричном числе
C++ Разработать алгоритм определения координат опор линий С++
C++ Написать программу проверки наличия в исходном файле чисел от 18 до 27
C++ Написать программу проверки наличия в исходном файле чисел от 18 до 27

Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
taras atavin
Ушёл с форума.
3569 / 1752 / 91
Регистрация: 24.11.2009
Сообщений: 27,619
12.09.2011, 08:52     Алгоритм определения наличия текста в файле. #10
html в UTF-8 вполне подходит под твоё описание. Все управляющие последовательности в нём начинаются символом "<" и заканчиваются символом ">". А есть форматы, в которых управляющие последовательности начинаются с символа с кодом 1B (в шестнадцатеричной записи). Я в одной приладе делал управляющие последовательности с символа "~" с завершающим "#", а символы "<" и ">" были обычными текстовыми (правда в ANSI 1251, то есть в однобайтном коде). Причём, UTF-8 мало того, что многобайтная, так ещё и переменной длины, так что читать всё таки по одному.
Yandex
Объявления
12.09.2011, 08:52     Алгоритм определения наличия текста в файле.
Ответ Создать тему
Опции темы

Текущее время: 11:21. Часовой пояс GMT +3.
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2017, vBulletin Solutions, Inc.
Рейтинг@Mail.ru