Кластерный анализ в Statistica

07.08.2014, 15:44. **Показов** 2688. **Ответов** 2

Author24 — интернет-сервис помощи студентам

Здравствуйте! Очень нужна помощь с программой STATISTICA. Я новичок в этой программе. Делила с помощью кластерного анализа методом К-средних предприятия на три группы по финансовым показателям. Поделило так, как мне нужно - в одну попали слабые, во вторую - средние, в третью - сильные. Только вот сохранив отчет с данными, номерами кластеров и дистанцией, теперь мне понадобился еще и график, а также добавить еще одно предприятие в анализ. Я провела анализ повторно (с теми же данными, а потом с теми же+одно предприятие) - а кластеризирует уже совсем не так, как впервый раз - получается бессмыслиница. Я уже перепробовала все настройки менять в окне с анализом (объекты в строках, столбцах, начальные центры кластеров, удаление ПД), а такого же результата не получается.
Вопросы: Опитные пользователи, в чем может быть причина разных вариантов кластеризации? Можно ли как-то восстановить тот мой анализ из сохраненного отчета, чтобы была возможность построить график? А может, можна как-то и посмотреть настройки, которые я тогда в суматохе выбрала? Могу сбросить файл отчета с данными с кластеризацией – 1 вариант, и той, что сейчас.
Пожалуйста, помощь очень нужна, так как время поджимает.

@VTsaregorodtsev · 10.08.2014, 22:02

У К-средних всего 2 способа инициализации начальных положений кластеров
1) взять за стартовые положения ядер какие-то (по числу кластеров) имеющиеся точки выборки. И если эти точки выбираются случайно - то результат не воспроизводится при повторных расчётах
2) взять случайные положения ядер. Результат повторно вообще не воспроизводится.
Такой вот плохой метод

Вернее, способ выбора начального приближения в нём.

Точнее, повторение результата в случае использования каких-то случайных инициализаций возможно только в случае достаточно хороших (выраженных, отделённых друг от друга) кластеров. Попробуйте поиграться с ирисами Фишера - у Статистики есть эта табличка среди примеров данных, там, если мне не изменяет память, кластеризация на 2 кластера будет практически всегда стабильной, на 3 - менее стабильной (данные такие). Просто у ирисов - всего 4 (или даже 3?) признака - можно легко глядеть на исходные законы распределения и затем думать, насколько правильно сработала кластеризация.

Правда, я по ирисам написал впечатления преимущественно по работе своей собственной программы - а Статистика может по-иному нормировать данные, и результаты кластеризации в ней будут иными. От способа нормировки же тоже многое зависит.

@tim007 · 19.12.2015, 19:17

Ответ - в версии 10 - сортировка дистанции по постоянному расстоянию. constant distance. Признак улучшения - сокращения числа одинакового количества в кейсах.

Svetlozara
		1
	Кластерный анализ в Statistica 07.08.2014, 15:44. Показов 2688. Ответов 2 Метки нет (Все метки) Здравствуйте! Очень нужна помощь с программой STATISTICA. Я новичок в этой программе. Делила с помощью кластерного анализа методом К-средних предприятия на три группы по финансовым показателям. Поделило так, как мне нужно - в одну попали слабые, во вторую - средние, в третью - сильные. Только вот сохранив отчет с данными, номерами кластеров и дистанцией, теперь мне понадобился еще и график, а также добавить еще одно предприятие в анализ. Я провела анализ повторно (с теми же данными, а потом с теми же+одно предприятие) - а кластеризирует уже совсем не так, как впервый раз - получается бессмыслиница. Я уже перепробовала все настройки менять в окне с анализом (объекты в строках, столбцах, начальные центры кластеров, удаление ПД), а такого же результата не получается. Вопросы: Опитные пользователи, в чем может быть причина разных вариантов кластеризации? Можно ли как-то восстановить тот мой анализ из сохраненного отчета, чтобы была возможность построить график? А может, можна как-то и посмотреть настройки, которые я тогда в суматохе выбрала? Могу сбросить файл отчета с данными с кластеризацией – 1 вариант, и той, что сейчас. Пожалуйста, помощь очень нужна, так как время поджимает.

@VTsaregorodtsev 1487 / 1414 / 240 Регистрация: 19.02.2010 Сообщений: 3,916
	10.08.2014, 22:02	2
	У К-средних всего 2 способа инициализации начальных положений кластеров 1) взять за стартовые положения ядер какие-то (по числу кластеров) имеющиеся точки выборки. И если эти точки выбираются случайно - то результат не воспроизводится при повторных расчётах 2) взять случайные положения ядер. Результат повторно вообще не воспроизводится. Такой вот плохой метод Вернее, способ выбора начального приближения в нём. Точнее, повторение результата в случае использования каких-то случайных инициализаций возможно только в случае достаточно хороших (выраженных, отделённых друг от друга) кластеров. Попробуйте поиграться с ирисами Фишера - у Статистики есть эта табличка среди примеров данных, там, если мне не изменяет память, кластеризация на 2 кластера будет практически всегда стабильной, на 3 - менее стабильной (данные такие). Просто у ирисов - всего 4 (или даже 3?) признака - можно легко глядеть на исходные законы распределения и затем думать, насколько правильно сработала кластеризация. Правда, я по ирисам написал впечатления преимущественно по работе своей собственной программы - а Статистика может по-иному нормировать данные, и результаты кластеризации в ней будут иными. От способа нормировки же тоже многое зависит. 1

@tim007 0 / 0 / 0 Регистрация: 19.12.2015 Сообщений: 6
	19.12.2015, 19:17	3
	Ответ - в версии 10 - сортировка дистанции по постоянному расстоянию. constant distance. Признак улучшения - сокращения числа одинакового количества в кейсах. 0