Форум программистов, компьютерный форум, киберфорум
Алгоритмы
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.82/11: Рейтинг темы: голосов - 11, средняя оценка - 4.82
1 / 1 / 0
Регистрация: 24.11.2013
Сообщений: 5

Автоматическая кластеризация текстов

24.11.2013, 13:23. Показов 1975. Ответов 2
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Сижу тут, думаю об алгоритме автоматической кластеризации текстов... но без тематических словарей и без предустановленных возможных названий кластера.

То есть у меня есть некий текст, величиной x*1000 символов, и мне, применив к нему получившийся алгоритм, необходимо выделить название кластера, под который бы подходил текст.

В алгоритм я уже включил:
1) Статистический анализ + небольшая предварительная подготовка текста (повторяемость слов и словоформ, выделение предложений, исключение "стоп-слов" - предлоги, междометия и т.д., исключение глаголов.)
2) Распознавания вида текста по КЛР (коэффициенту лексического разнообразия) и средней длине слов.
3) Составление морфологического словаря - словаря 1го уровня.
4) Составление словаря корневых слов и устойчивых словосочетаний - словаря 2го уровня.
5) Составление преренормированного словаря на основе встречаемости слов в предложении попарно. Увеличение веса слова или словосочетания происходит за счет связи с соседними словами, пропорционально весу соседних слов. Таким образом можно вычислить слова и словосочетания, стягивающие на себя наибольшую смысловую нагрузку. Так мы получаем словарь 3го уровня.
6) Как вариант, по принципу автореферирования выделить наиболее весомые предложения и применить для них пункты 1, 3, 4, 5 заново.
7) На основе словаря 3го уровня выделить название кластера, к которому относится данный текст.

Пока это все, что я смог надумать.. Может у кого-нибудь есть интересные идеи на эту тему? Может кто-то работал или интересовался в этом направлении? Буду искренне благодарен за советы.)
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
24.11.2013, 13:23
Ответы с готовыми решениями:

Кластеризация текстов
Здравствуйте! Надо писать курсовую на тему:"Метод кластеризации текстов, основанный на попарной близости термов". В курсовую должно...

Кластеризация
Здравствуйте, уважаемые! Извините, что я к вам обращаюсь, но я попал в сложную ситуацию, в которой может оказаться каждый. :) Итак:...

k-mean кластеризация
Доброго времени суток уважаемые програмисты! Вы знаете что сделать чтоб программа коректно работала? ...

2
2630 / 1642 / 266
Регистрация: 19.02.2010
Сообщений: 4,359
24.11.2013, 21:56
Хм. Все Ваши навороты - скорее всего имеют смысл только для задачи называния кластера.
А автоматическую классификацию можно делать и после шага 1 - вернее, на построенных по "отнормализованным" (без стоп-слов и прочего, с коррекцией времён и единственных/множественных чисел) текстам частотных словарях.
По крайней мере, так очень хорошо можно было раскидывать патентные тексты (которые более-менее формальны, т.е. могут мало отличаться по признакам типа средней длины предложения) на тематические группы (просто в патентной классификации есть такие коды/рубрики, где действительно содержатся патенты из разных тем или областей науки). Ну и новостные тексты - тоже по темам разделялись хорошо (журналюг обычно начальство дрессирует под более-менее одинаковый корпоративный стиль написания новостей). А вот обозвать полученные кластера - это да, задача.
0
1 / 1 / 0
Регистрация: 24.11.2013
Сообщений: 5
24.11.2013, 22:11  [ТС]
У меня сейчас основная проблема и заключается в автоматическом назывании кластеров.

Для меня пока неразрешимая проблема - как работать автоматически с художественными текстами... Ведь заставить алгоритм выдать кластер "описание природы" не так-то просто, мне кажется. На ум приходили уже и варианты со словарями синонимов, и словарями морфем, и, даже, толковый словарь Даля вспомнил..
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
24.11.2013, 22:11
Помогаю со студенческими работами здесь

Кластеризация
Ребят,кто-нибудь может объяснить как найти расстояния смешанных данных? Я изучила метод к-средних для числовых данных,где расстояние...

Кластеризация 8.2
Здравствуйте! Мы только кто перешли на 8.2. У нас 2 сервера, допустим, server0 и server1. При добавлении базы в список баз пользователей...

Кластеризация в python
Всем доброго времени суток!. В простом примере есть два класса: спортивные новости и другие произвольные статьи. При кластеризации текста,...

Спектральная кластеризация
Кто знает где описан алгоритм спектральной кластеризации с примером. Желательно если вы знаете книгу, так как надеюсь там найти другие...

Кластеризация Qml
Кто нибудь пробовал кластеризировать метки в qml? Скиньте метод


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip" Извлеките архив и вы увидите. . .
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д. Сборка примера Скачайте. . .
Использование SDL3-callbacks вместо функции main() на Android, Desktop и WebAssembly
8Observer8 24.01.2026
Содержание блога Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
моя боль
iceja 24.01.2026
Выложила интерполяцию кубическими сплайнами www. iceja. net REST сервисы временно не работают, только через Web. Написала за 56 рабочих часов этот сайт с нуля. При помощи perplexity. ai PRO , при. . .
Модель сукцессии микоризы
anaschu 24.01.2026
Решили писать научную статью с неким РОманом
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru