Форум программистов, компьютерный форум, киберфорум
Наши страницы

Библиотека для работы с русскими текстами! - C++

Войти
Регистрация
Восстановить пароль
Другие темы раздела
C++ Выполнить над квадратной матрицей А порядка n последовательность действий, указанную в задании http://www.cyberforum.ru/cpp-beginners/thread1059147.html
Нужна помощь народ ! Мне задали в универе такую батву аш волосы дыбом . В С++ я полный нуль так что если можно прокомментируте прогу Выполнить над квадратной матрицей А порядка n...
C++ Строки резервирование дополнительного места В общем пишу свой строковый класс , нужно зарезервировать дополнительное место в уже инициализированной переменной, но при копировании и создании динамической памяти почему-то меняются значения в... http://www.cyberforum.ru/cpp-beginners/thread1059139.html
C++ На базе контейнера vector из стандартной библиотеки С++ создайте шаблон класса Set,
На базе контейнера vector из стандартной библиотеки С++ создайте шаблон класса Set, в котором каждый объект может храниться только в одной копии. Создайте вложенный класс iterаtоr с поддержкой...
C++ Изменить приращение используемое функцией, автоматически изменялось для уменьшения кол-ва вызовов
Нужно изменить пример так, чтобы приращение используемое функцией inflate(), автоматически изменялось для уменьшения кол-ва вызовов. Например при каждом вызове приращение для следующего вызова может...
C++ Скопировать в файл F2 только те строки из F1, которые начинаются с буквы «А» http://www.cyberforum.ru/cpp-beginners/thread1059117.html
не могу решить задачу, не откажусь от помощи, добрые люди))) Создать текстовый файл F1 не менее, чем из 10 строк и записать в него информацию. Скопировать в файл F2 только те строки из F1, которые...
C++ Из матрицы удалить строку и столбец на пересечений которых стоит минимальный элемент Удалить из матрицы целых чисел, размерности N*M строку и столбец на пересечении которых расположен минимальный элемент матрицы. подробнее

Показать сообщение отдельно
ninja2
231 / 187 / 7
Регистрация: 26.09.2012
Сообщений: 2,018
Завершенные тесты: 1
29.12.2013, 00:22  [ТС]
Цитата Сообщение от gazlan Посмотреть сообщение
Попробуйте, для начала, максимально сузить задачу - под конкретный сайт или разметку. Многие сайты используют популярные CMS, начните с одной из них, потом сможете добавить другие.
Не ну под конкретный шаблон сайта несоставит написать парсер. Вообще трудно будет понять на какой ЦМС написан сайт, просто поменять шаблон и все неразобрать да еще ЦМС тысячи, лучше сразу ставить задачу реально общий разбор любого html текста, что б я передал в функцию любой html текст и она проанализировала его и выдала мне либо готовый ОЧЕНЬ ХОРОШО ЧИТАЕМЫЙ ТЕКСТ либо сказала что html документ не содержит статьи, что то типо искуственного интелекта, наподобие человека, я ж смотрю на страницу и могу ж определить который текст сохранять, а который нет.
Вообще есть идея, написать расширяемую и постоянно улучшаемую функцию, с множеством ответвлений, похоже такая явно получиться будет очень много условий. Щас у меня алгоритм он не так как нужно работает совсем по другому, вообще хорошо что программы на С++ легко изменять без изменения старого кода, просто старый вызов функции закомментировал и вызвал новую функцию.

Похоже не такая простая задача, но я попытаюсь пойти по самому легкому пути, просто попытаюсь найти конец статьи, но тут тоже не сильно хороший вариант, а если сайт будет форумом либо на нем будет находится не статья а просто текст ити от как тут текст читаемый, и если его выдрать то получится нормальная даже скорее всего уникальная статья. Нет конец статьи находить это не будет универсальный алгоритм, лучше определять по смыслу текста. Возникла идея алгоритма это брать куски текста, реально куски текста и уже сами куски проверять читаемые они или нет, если да то мы его добавляем, нет удаляем. Это будет самое правильное решение, это будет универсальнось.

После того как мы полностью обработали html документ и получили текст, мне нужно его уже проверить на читаемость от как раз закон ЦИПФА подайдет проверить насколько текст читаемый, а затем уже если он не читаемый окажется то что то делать.

gazlan, от закон ЦИФКА как им пользоваться, мне нужно откуда то узнать частоту появления слов в предложении для конкретного языка, в моем случае русского и сравнивать уже с той частотой которая будет для моего текста? Ну я вроде как то его так понял. хз. буду разбираться, неплохие ссылки, особенно на хабре понравился пост. Уже есть идея как делать, да наверно начну, придется полностью мой старый код переделывать и возможно мой этот алгоритм неправильный будет, просто нужно сделать расширяемую функцию с кучей ответвлений на некоторые ответвления пока поставить заглушки, обрабатывать пока самые частые условия, потом со временем заглушек уже нигде не будет и мы рано или поздно получим качественную функцию обработки текста, в любом случае количество возможных условий конечно и рано или поздно мы все их будем обрабатывать ИМХО.

Добавлено через 13 часов 11 минут
gazlan, Слишишь а как пользоваться законом ЦИПФА? Допустим есть у меня слово "чукча", оно у меня встречается 4 раза в тексте, по частоте для моего текста оно стоит на 10 месте. Как мне проверить соответствует ли частота слов закону ЦИПФА? Правильно мне нужно полностью знать частоту для всех слов, что б можно все мои слова расставить в правильном порядке относительно частоты для языка, а затем уже проверить соответствует ли частота закону?

Добавлено через 2 минуты
Хочу попробовать реализовать проверку русского текста по этому закону, что мне для этого нужно, знать частоту всех слов русского языка?
0
 
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2017, vBulletin Solutions, Inc.
Рейтинг@Mail.ru