|
1 / 1 / 0
Регистрация: 24.11.2013
Сообщений: 5
|
|
Автоматическая кластеризация текстов24.11.2013, 13:23. Показов 1975. Ответов 2
Метки нет (Все метки)
Сижу тут, думаю об алгоритме автоматической кластеризации текстов... но без тематических словарей и без предустановленных возможных названий кластера.
То есть у меня есть некий текст, величиной x*1000 символов, и мне, применив к нему получившийся алгоритм, необходимо выделить название кластера, под который бы подходил текст. В алгоритм я уже включил: 1) Статистический анализ + небольшая предварительная подготовка текста (повторяемость слов и словоформ, выделение предложений, исключение "стоп-слов" - предлоги, междометия и т.д., исключение глаголов.) 2) Распознавания вида текста по КЛР (коэффициенту лексического разнообразия) и средней длине слов. 3) Составление морфологического словаря - словаря 1го уровня. 4) Составление словаря корневых слов и устойчивых словосочетаний - словаря 2го уровня. 5) Составление преренормированного словаря на основе встречаемости слов в предложении попарно. Увеличение веса слова или словосочетания происходит за счет связи с соседними словами, пропорционально весу соседних слов. Таким образом можно вычислить слова и словосочетания, стягивающие на себя наибольшую смысловую нагрузку. Так мы получаем словарь 3го уровня. 6) Как вариант, по принципу автореферирования выделить наиболее весомые предложения и применить для них пункты 1, 3, 4, 5 заново. 7) На основе словаря 3го уровня выделить название кластера, к которому относится данный текст. Пока это все, что я смог надумать.. Может у кого-нибудь есть интересные идеи на эту тему? Может кто-то работал или интересовался в этом направлении? Буду искренне благодарен за советы.)
0
|
|
| 24.11.2013, 13:23 | |
|
Ответы с готовыми решениями:
2
Кластеризация текстов Кластеризация k-mean кластеризация |
|
2630 / 1642 / 266
Регистрация: 19.02.2010
Сообщений: 4,359
|
|
| 24.11.2013, 21:56 | |
|
Хм. Все Ваши навороты - скорее всего имеют смысл только для задачи называния кластера.
А автоматическую классификацию можно делать и после шага 1 - вернее, на построенных по "отнормализованным" (без стоп-слов и прочего, с коррекцией времён и единственных/множественных чисел) текстам частотных словарях. По крайней мере, так очень хорошо можно было раскидывать патентные тексты (которые более-менее формальны, т.е. могут мало отличаться по признакам типа средней длины предложения) на тематические группы (просто в патентной классификации есть такие коды/рубрики, где действительно содержатся патенты из разных тем или областей науки). Ну и новостные тексты - тоже по темам разделялись хорошо (журналюг обычно начальство дрессирует под более-менее одинаковый корпоративный стиль написания новостей). А вот обозвать полученные кластера - это да, задача.
0
|
|
|
1 / 1 / 0
Регистрация: 24.11.2013
Сообщений: 5
|
|
| 24.11.2013, 22:11 [ТС] | |
|
У меня сейчас основная проблема и заключается в автоматическом назывании кластеров.
Для меня пока неразрешимая проблема - как работать автоматически с художественными текстами... Ведь заставить алгоритм выдать кластер "описание природы" не так-то просто, мне кажется. На ум приходили уже и варианты со словарями синонимов, и словарями морфем, и, даже, толковый словарь Даля вспомнил..
0
|
|
| 24.11.2013, 22:11 | |
|
Помогаю со студенческими работами здесь
3
Кластеризация Кластеризация 8.2 Кластеризация в python Спектральная кластеризация Кластеризация Qml Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Воспроизведение звукового файла с помощью SDL3_mixer при касании экрана Android
8Observer8 26.01.2026
Содержание блога
SDL3_mixer - это библиотека я для воспроизведения аудио. В отличие от инструкции по добавлению текста код по проигрыванию звука уже содержится в шаблоне примера. Нужно только. . .
|
Установка Android SDK, NDK, JDK, CMake и т.д.
8Observer8 25.01.2026
Содержание блога
Перейдите по ссылке: https:/ / developer. android. com/ studio и в самом низу страницы кликните по архиву "commandlinetools-win-xxxxxx_latest. zip"
Извлеките архив и вы увидите. . .
|
Вывод текста со шрифтом TTF на Android с помощью библиотеки SDL3_ttf
8Observer8 25.01.2026
Содержание блога
Если у вас не установлены Android SDK, NDK, JDK, и т. д. то сделайте это по следующей инструкции: Установка Android SDK, NDK, JDK, CMake и т. д.
Сборка примера
Скачайте. . .
|
Использование SDL3-callbacks вместо функции main() на Android, Desktop и WebAssembly
8Observer8 24.01.2026
Содержание блога
Если вы откроете примеры для начинающих на официальном репозитории SDL3 в папке: examples, то вы увидите, что все примеры используют следующие четыре обязательные функции, а. . .
|
|
моя боль
iceja 24.01.2026
Выложила интерполяцию кубическими сплайнами www. iceja. net
REST сервисы временно не работают, только через Web.
Написала за 56 рабочих часов этот сайт с нуля. При помощи perplexity. ai PRO , при. . .
|
Модель сукцессии микоризы
anaschu 24.01.2026
Решили писать научную статью с неким РОманом
|
http://iceja.net/ математические сервисы
iceja 20.01.2026
Обновила свой сайт http:/ / iceja. net/ , приделала Fast Fourier Transform экстраполяцию сигналов. Однако предсказывает далеко не каждый сигнал (см ограничения http:/ / iceja. net/ fourier/ docs ). Также. . .
|
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма).
На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
|