Форум программистов, компьютерный форум CyberForum.ru

Библиотека для работы с русскими текстами! - C++

Войти
Регистрация
Восстановить пароль
Другие темы раздела
C++ Выполнить над квадратной матрицей А порядка n последовательность действий, указанную в задании http://www.cyberforum.ru/cpp-beginners/thread1059147.html
Нужна помощь народ ! Мне задали в универе такую батву аш волосы дыбом . В С++ я полный нуль так что если можно прокомментируте прогу Выполнить над квадратной матрицей А порядка n последовательность действий, указанную в задании. а) В матрице А поменять местами две строки с заданными номерами; б) из элементов полученной матрицы, которые лежат на главной диагонали и под ней, сформировать...
C++ Строки резервирование дополнительного места В общем пишу свой строковый класс , нужно зарезервировать дополнительное место в уже инициализированной переменной, но при копировании и создании динамической памяти почему-то меняются значения в m_StaticBuffer. и при почленном копировании ничего не копируется т.к. идет какое-то изменение...как-то так я это понял при пошаговой отладке.. String.h #ifndef _FIRST_CLASS_STRING_HPP_ #define... http://www.cyberforum.ru/cpp-beginners/thread1059139.html
C++ На базе контейнера vector из стандартной библиотеки С++ создайте шаблон класса Set,
На базе контейнера vector из стандартной библиотеки С++ создайте шаблон класса Set, в котором каждый объект может храниться только в одной копии. Создайте вложенный класс iterаtоr с поддержкой конечных итераторов, описанных в этой главе. Включите в main() код для тестирования шаблона Set, затем замените его шаблоном set из стандартной библиотеки С++ и убедитесь в том, что он работает правильно. ...
C++ Изменить приращение используемое функцией, автоматически изменялось для уменьшения кол-ва вызовов
Нужно изменить пример так, чтобы приращение используемое функцией inflate(), автоматически изменялось для уменьшения кол-ва вызовов. Например при каждом вызове приращение для следующего вызова может увеличиваться в двое. //MY.cpp //... template<class T, int incr> void PStash<T, incr>::inflate(int increase) { const int psz = sizeof(T*); T** st = new T*; memset(st, 0, (quantity +...
C++ Скопировать в файл F2 только те строки из F1, которые начинаются с буквы «А» http://www.cyberforum.ru/cpp-beginners/thread1059117.html
не могу решить задачу, не откажусь от помощи, добрые люди))) Создать текстовый файл F1 не менее, чем из 10 строк и записать в него информацию. Скопировать в файл F2 только те строки из F1, которые начинаются с буквы «А».
C++ Из матрицы удалить строку и столбец на пересечений которых стоит минимальный элемент Удалить из матрицы целых чисел, размерности N*M строку и столбец на пересечении которых расположен минимальный элемент матрицы. подробнее

Показать сообщение отдельно
ninja2
 Аватар для ninja2
230 / 186 / 7
Регистрация: 26.09.2012
Сообщений: 2,018
Завершенные тесты: 1
29.12.2013, 00:22  [ТС]     Библиотека для работы с русскими текстами!
Цитата Сообщение от gazlan Посмотреть сообщение
Попробуйте, для начала, максимально сузить задачу - под конкретный сайт или разметку. Многие сайты используют популярные CMS, начните с одной из них, потом сможете добавить другие.
Не ну под конкретный шаблон сайта несоставит написать парсер. Вообще трудно будет понять на какой ЦМС написан сайт, просто поменять шаблон и все неразобрать да еще ЦМС тысячи, лучше сразу ставить задачу реально общий разбор любого html текста, что б я передал в функцию любой html текст и она проанализировала его и выдала мне либо готовый ОЧЕНЬ ХОРОШО ЧИТАЕМЫЙ ТЕКСТ либо сказала что html документ не содержит статьи, что то типо искуственного интелекта, наподобие человека, я ж смотрю на страницу и могу ж определить который текст сохранять, а который нет.
Вообще есть идея, написать расширяемую и постоянно улучшаемую функцию, с множеством ответвлений, похоже такая явно получиться будет очень много условий. Щас у меня алгоритм он не так как нужно работает совсем по другому, вообще хорошо что программы на С++ легко изменять без изменения старого кода, просто старый вызов функции закомментировал и вызвал новую функцию.

Похоже не такая простая задача, но я попытаюсь пойти по самому легкому пути, просто попытаюсь найти конец статьи, но тут тоже не сильно хороший вариант, а если сайт будет форумом либо на нем будет находится не статья а просто текст ити от как тут текст читаемый, и если его выдрать то получится нормальная даже скорее всего уникальная статья. Нет конец статьи находить это не будет универсальный алгоритм, лучше определять по смыслу текста. Возникла идея алгоритма это брать куски текста, реально куски текста и уже сами куски проверять читаемые они или нет, если да то мы его добавляем, нет удаляем. Это будет самое правильное решение, это будет универсальнось.

После того как мы полностью обработали html документ и получили текст, мне нужно его уже проверить на читаемость от как раз закон ЦИПФА подайдет проверить насколько текст читаемый, а затем уже если он не читаемый окажется то что то делать.

gazlan, от закон ЦИФКА как им пользоваться, мне нужно откуда то узнать частоту появления слов в предложении для конкретного языка, в моем случае русского и сравнивать уже с той частотой которая будет для моего текста? Ну я вроде как то его так понял. хз. буду разбираться, неплохие ссылки, особенно на хабре понравился пост. Уже есть идея как делать, да наверно начну, придется полностью мой старый код переделывать и возможно мой этот алгоритм неправильный будет, просто нужно сделать расширяемую функцию с кучей ответвлений на некоторые ответвления пока поставить заглушки, обрабатывать пока самые частые условия, потом со временем заглушек уже нигде не будет и мы рано или поздно получим качественную функцию обработки текста, в любом случае количество возможных условий конечно и рано или поздно мы все их будем обрабатывать ИМХО.

Добавлено через 13 часов 11 минут
gazlan, Слишишь а как пользоваться законом ЦИПФА? Допустим есть у меня слово "чукча", оно у меня встречается 4 раза в тексте, по частоте для моего текста оно стоит на 10 месте. Как мне проверить соответствует ли частота слов закону ЦИПФА? Правильно мне нужно полностью знать частоту для всех слов, что б можно все мои слова расставить в правильном порядке относительно частоты для языка, а затем уже проверить соответствует ли частота закону?

Добавлено через 2 минуты
Хочу попробовать реализовать проверку русского текста по этому закону, что мне для этого нужно, знать частоту всех слов русского языка?
 
Текущее время: 04:29. Часовой пояс GMT +3.
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin® Version 3.8.9
Copyright ©2000 - 2017, vBulletin Solutions, Inc.
Рейтинг@Mail.ru