С Новым годом! Форум программистов, компьютерный форум, киберфорум
Наши страницы

С++ для начинающих

Войти
Регистрация
Восстановить пароль
 
KorPaEv
56 / 32 / 4
Регистрация: 08.07.2011
Сообщений: 208
#1

Алгоритм определения наличия текста в файле. - C++

12.09.2011, 07:42. Просмотров 671. Ответов 9
Метки нет (Все метки)

Всем доброго времени суток.
Собственно вопрос в теме.
Есть произвольный бинарный файл, содержит набор спецсимволов типа %:?*№ и т.д. и текст "Привет, это тест!"
Подскажите где копать, по поводу алгоритма определения текста в файле.
Т.е. моя задача написать функцию, которая вернет мне 1, если файл, помимо спецсимволов содержит текст.
Можно тупо загнать все символы в исключение и сканировать, но это долго и тупо.
Подскажите где можно поискать алгоритмы распознавания текста в файле (точнее наличия текста, для начала) в фйле??
Заранее спасибо.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
Similar
Эксперт
41792 / 34177 / 6122
Регистрация: 12.04.2006
Сообщений: 57,940
12.09.2011, 07:42
Здравствуйте! Я подобрал для вас темы с ответами на вопрос Алгоритм определения наличия текста в файле. (C++):

Написать функцию для определения наличия в файле чисел, у которых сумма цифр целой и дробной части равны - C++
2)Дан текстовый файл с неизвестным количеством вещественных чисел. Написать функцию для определения есть ли среди них число у которого...

Написать программу проверки наличия в исходном файле чисел от 18 до 27 - C++
Написать программу проверки наличия в исходном файле чисел от 18 до 27.

Написать программу проверки наличия в исходном файле чисел от 18 до 27 - C++
Написать программу проверки наличия в исходном файле чисел от 18 до 27

Алгоритм определения периодичности - C++
Есть последовательность: и тд. Вот цикл этой последовательности: ( 11010 ) Помогите с алгоритмом, который будет определять цикл.

Алгоритм определения конца предложения - C++
Написать программу, определяющую конец предложения в текстах. В алгоритме учесть: смайлики, сокращения, инициалы, прямую речь, а также...

Алгоритм определения планарности графа - C++
Задача: определить планарность графа, заданного списком смежности. Натолкните на истинный код, заранее признателен

9
taras atavin
3570 / 1754 / 91
Регистрация: 24.11.2009
Сообщений: 27,567
12.09.2011, 08:07 #2
Такого универсального алгоритма быть не может. Текст в файлах представляется не текстом, то есть не символами, а значениями битов, теми же значениями битов представляются и бинарные данные. Ты нашёл в бинарнике текст AB? Эси. А может это число 16706? Разбирай спецификации тех форматов, файлы которых тебе потенциально могут подсунуть, ищи в них, как кодируется позиция текста и как опознать сам формат.

Добавлено через 4 минуты
"ABC" может оказаться 4276803, "A B" - 4268098. Интерпретация битов - задача программы и только программы, она может и любой спецсимвол интерпретировать, как букву (другая кодировка и все возражения к хелу).
0
KorPaEv
56 / 32 / 4
Регистрация: 08.07.2011
Сообщений: 208
12.09.2011, 08:12  [ТС] #3
Цитата Сообщение от taras atavin Посмотреть сообщение
Такого универсального алгоритма быть не может. Текст в файлах представляется не текстом, то есть не символами, а значениями битов, теми же значениями битов представляются и бинарные данные. Ты нашёл в бинарнике текст AB? Эси. А может это число 16706? Разбирай спецификации тех форматов, файлы которых тебе потенциально могут подсунуть, ищи в них, как кодируется позиция текста и как опознать сам формат.

Добавлено через 4 минуты
"ABC" может оказаться 4276803, "A B" - 4268098. Интерпретация битов - задача программы и только программы, она может и любой спецсимвол интерпретировать, как букву (другая кодировка и все возражения к хелу).
В том то и дело - предполагается анализатор текста, в котором могут присутствовать битые байты и спецсимволы - получается формат текстовый. Но от этого не легче. Мне надо отфильтровать для начала чистый текст а потом уже его язык анализировать.
Вот и озадачился как определить для начала чистый текст.
0
taras atavin
3570 / 1754 / 91
Регистрация: 24.11.2009
Сообщений: 27,567
12.09.2011, 08:18 #4
Текст с управляющими последовательностями? Тогда тебе надо опознать кодировку и фактический формат. Опять таки он может быть каким угодно, но в каждой версии есть строго определённые символы начала таких последовательностей и правила определения их длины (как вариант - строго определённые символы конца последовательности, или её фиксированная длина). Копай спецификации возможных фактических форматов и анализируй "в лоб". Иначе нельзя, ни какого универсального флага наличия текста в начале файла не существует, а значит не может быть и универсального алгоритма его проверки.
0
ValeryLaptev
Эксперт С++
1046 / 825 / 48
Регистрация: 30.04.2011
Сообщений: 1,659
12.09.2011, 08:21 #5
KorPaEv, сразу надо определиться: текст в однобайтной кодировке или в многобайтной?
Потому как в зависимости от количество байтов в символе, надо определять, по сколько байтов читать за раз. Если по одному байту - то просто считываем очередную порцию байтов и ищем в нем текст.
Если многобайтная, то считываем очередную порцию много*байт, и ищем в ней текст.
0
taras atavin
3570 / 1754 / 91
Регистрация: 24.11.2009
Сообщений: 27,567
12.09.2011, 08:30 #6
А может быть и переменной длины, например, UTF-8. Тогда читать байты по одному. Прочитал байт - проверяешь, получился ли вообще символ, или его префикс, потом читаешь следующий байт или в текущий символ, или в следующий.
0
accept
4828 / 3249 / 165
Регистрация: 10.12.2008
Сообщений: 10,569
12.09.2011, 08:34 #7
удали из него все символы, которых не должно быть
0
taras atavin
3570 / 1754 / 91
Регистрация: 24.11.2009
Сообщений: 27,567
12.09.2011, 08:35 #8
А если бы и сущестовал такой флаг, его бы сразу не было. Вот представь: ты сам сочинил формат текста с бинарными управляющими вставками, а о таком флаге явно не знаешь и не выставил его. Всё, формат без поддержки флага существует, флаг потерял универсальность. И таких девелоперов, не знающих хотя бы по одному флагу каждый, а между собой ни о чём не договаривающихся - всё ИТ сообщество.
0
KorPaEv
56 / 32 / 4
Регистрация: 08.07.2011
Сообщений: 208
12.09.2011, 08:39  [ТС] #9
Спасибо! Кстати кодировка будет многобайтовая, это осложняет все, может встретиться слово в 1251 битое, битый байт будет юникод например.
0
taras atavin
3570 / 1754 / 91
Регистрация: 24.11.2009
Сообщений: 27,567
12.09.2011, 08:52 #10
html в UTF-8 вполне подходит под твоё описание. Все управляющие последовательности в нём начинаются символом "<" и заканчиваются символом ">". А есть форматы, в которых управляющие последовательности начинаются с символа с кодом 1B (в шестнадцатеричной записи). Я в одной приладе делал управляющие последовательности с символа "~" с завершающим "#", а символы "<" и ">" были обычными текстовыми (правда в ANSI 1251, то есть в однобайтном коде). Причём, UTF-8 мало того, что многобайтная, так ещё и переменной длины, так что читать всё таки по одному.
0
12.09.2011, 08:52
MoreAnswers
Эксперт
37091 / 29110 / 5898
Регистрация: 17.06.2006
Сообщений: 43,301
12.09.2011, 08:52
Привет! Вот еще темы с ответами:

Разработать алгоритм определения координат опор линий С++ - C++
задание! Разработать алгоритм определения координат опор линий!

Алгоритм определения количества цифр в шестнадцатиричном числе - C++
Привет, у меня постала задача создать программу на с++, связану с определениям количества цифр в шестизначному числе. Определения должно...

Составить алгоритм определения последовательности номеров удаляемых спортсменов - C++
ребята! до завтра ришите задачу. пожалуйста. я ноль в программировании по кругу стоят N спортсменов с номерами от 1 до N. начиная с...

Жадный алгоритм для определения последовательности обхода городов. - C++
Здравствуйте! Изучаю разные транспортные алгоритмы и возник следующий вопрос. На основе данных, полученных из txt-файла формирую...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
10
Ответ Создать тему
Опции темы

КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2017, vBulletin Solutions, Inc.