Метод K-means

@aandrew1 · Регистрация: 14.12.2021

Студворк — интернет-сервис помощи студентам

Всем привет!
У меня есть реализация алгоритма k-means. Но мне нужно в коде представить сложность алгоритма. Сделал просто расчет времени выполнения проги, но это не оно. В общем видел, что сложность метода k-средних определяется как: О(n) O(n^2) O(logn). И все-таки не могу понять, как мне его посчитать.

Вот сам код алгоритма:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
import numpy as np
import math as mt
import matplotlib.pyplot as plt
import random as ran
import time
start_time = time.time()
 
# генерируем точки
mas = []
for q in range(0, 9):
    a = [ran.randint(1, 4) for i in range(0, 2)]
    mas.append(a)
# генерируем центры
k1 = [ran.randint(1, 4) for i in range(0, 2)]
k2 = [ran.randint(1, 4) for i in range(0, 2)]
 
dist = np.empty((15, 4), dtype=object)  # создаем пустой массив
mis = 0  # ошибка
mists = []  # список всех ошибок (пустой)
 
for i in range(5):  # внешний цикл расчетов
    counter1, counter2 = 0, 0
    curr_k1, curr_k2 = [0, 0], [0, 0]
    for j in range(len(mas)):  # внутренний цикл расчетов
        p = mas[j]  # выбираем первую точку
        distance_k1 = round(mt.fabs((k1[0] - p[0]) + (k1[1] - p[1])), 2)  # расстояние от первого цетра
        distance_k2 = round(mt.fabs((k2[0] - p[0]) + (k2[1] - p[1])), 2)  # расстояние от второго цетра
 
        if distance_k1 > distance_k2:  # узнаем к какому цетру точка ближе
            dist[j, 0] = mas[j][0]
            dist[j, 1] = mas[j][1]
            dist[j, 2] = distance_k2
            dist[j, 3] = 2
        else:
            dist[j, 0] = mas[j][0]
            dist[j, 1] = mas[j][1]
            dist[j, 2] = distance_k1
            dist[j, 3] = 1
        mis += dist[j, 2]**2  # находим ошибку
        mis = round(mis, 2)  # округляем ошибку
 
        if dist[j, 3] == 1:  # просматриваем точки и накапливаем нужный "counter"
            curr_k1[0] += dist[j, 0]
            curr_k1[1] += dist[j, 1]
            counter1 += 1
        else:
            curr_k2[0] += dist[j, 0]
            curr_k2[1] += dist[j, 1]
            counter2 += 1
    mists.append(mis)  # записываем ошибки в список
    n = (mists[i] - mists[i - 1]) / mists[0]  # рассчитываем ошибку на текущей итерации
    if n < 0.1 and i > 1:  # если ошибка менялась незначительно - перестаем перемещать центры
        break
    if counter1 == 0:
        counter1 = 1
    if counter2 == 0:
        counter2 = 1
    # изменяем координаты центров, исходя из точек, которые пренадлежат данному кластеру
    k1[0] = curr_k1[0] / counter1
    k1[1] = curr_k1[1] / counter1
    k2[0] = curr_k2[0] / counter2
    k2[1] = curr_k2[1] / counter2
 
 
# создаем график
x = []
y = []
for p in range(len(mas)):  # цикл наполнения списков координатами точек
    pointx = mas[p][0]
    pointy = mas[p][1]
    x.append(pointx)
    y.append(pointy)
 
# изменяем внешний вид графика
fig = plt.figure()
ax = fig.add_subplot(111)
ax.patch.set_facecolor('black')
ax.set_title('Кластеризация (k-means)', fontsize=16, fontweight="bold")
for m in range(len(mas)):  # цикл вывода точек
    if dist[m][3] == 1:
        point1 = plt.scatter(x[m], y[m], c='g')
    else:
        point2 = plt.scatter(x[m], y[m], c='y')
# центры кластеров
plt.scatter(k1[0], k1[1], c='g', marker='*')
plt.scatter(k2[0], k2[1], c='y', marker='*')
plt.xlabel("Ось X", fontsize=14)
plt.ylabel("Ось Y", fontsize=14)
plt.legend((point1, point2), ['Первый кластер', 'Второй кластер'], bbox_to_anchor=(1.4, 1), facecolor='lightblue', shadow=True)
plt.text(k1[0]-0.2, k1[1]-0.2, "Центр 1", color = 'white')
plt.text(k2[0]-0.2, k2[1]-0.2, "Центр 2", color = 'white')
plt.show()
 
 
print('Первый центр= ', k1)
print('Второй центр= ', k2)
 
print("--- %s seconds ---" % (time.time() - start_time))

@Red white socks · 27.05.2022, 12:58

Сообщение от aandrew1

В общем видел, что сложность метода k-средних определяется как: О(n) O(n^2) O(logn).

Где вы, интересно, это видели? Возможно сама запись этого выражения и не является неправильной , но точно безграмотной.
Да и по смыслу оно явно ошибочно.

@aandrew1 · 27.05.2022, 14:34 **[ТС]**

Хорошо, а есть ли у вас какие-то предложения?

@VTsaregorodtsev · 27.05.2022, 15:12

aandrew1, O(NDkm), где N - число векторов данных (точек выборки), D - размерность векторов данных, k - число кластеров, m - число итераций алгоритма по всей выборке данных.

Значение m может на практике оказываться меньше, чем задаваемое юзером число (если, например, юзер задал m=100 в качестве верхнего предела числа итераций, а положения кластеров перестали меняться после десятой итерации - то прога может прекратить расчёт, ибо дальнейшая работа будет бесполезной (не будет изменять положений кластеров и распределений точек данных по кластерам)).

Сообщение от aandrew1

У меня есть реализация алгоритма k-means.

Выброси эту хрень.
Там, например, в строках 26-27 вычисляемое "расстояние" между точками - не является каким-либо из известных/классических расстояний (евклидово, манхэттенское,..), да и не является метрикой вообще.

@aandrew1 · 27.05.2022, 17:32 **[ТС]**

Сообщение от VTsaregorodtsev

O(NDkm), где N - число векторов данных (точек выборки), D - размерность векторов данных, k - число кластеров, m - число итераций алгоритма по всей выборке данных.

Спасибо за инфу, полезно!

Сообщение от VTsaregorodtsev

не является каким-либо из известных/классических расстояний (евклидово, манхэттенское,..)

Как это не является? Я же ее не с воздуха взял)) Это и есть метрика Манхэттена: Название: изображение_2022-05-27_173044829.png
Просмотров: 72

Размер: 2.3 Кб

Название: изображение_2022-05-27_173044829.png
Просмотров: 72

Размер: 2.3 Кб

@VTsaregorodtsev · 27.05.2022, 19:04

Сообщение от aandrew1

Как это не является?

Именно не является. Код не соответствует формуле.
Конкретно - операцию взятия модуля нельзя выносить за знак суммы.

@aandrew1 · 28.05.2022, 19:47 **[ТС]**

Сообщение от VTsaregorodtsev

O(NDkm), где N - число векторов данных (точек выборки), D - размерность векторов данных, k - число кластеров, m - число итераций алгоритма по всей выборке данных.
Значение m может на практике оказываться меньше, чем задаваемое юзером число (если, например, юзер задал m=100 в качестве верхнего предела числа итераций, а положения кластеров перестали меняться после десятой итерации - то прога может прекратить расчёт, ибо дальнейшая работа будет бесполезной (не будет изменять положений кластеров и распределений точек данных по кластерам)).

Кстати, немного поискав, нашел еще вот такую вот формулу сложности, что скажете?

@VTsaregorodtsev · 29.05.2022, 00:49

Сообщение от aandrew1

еще вот такую вот формулу сложности

"Верить в наше время нельзя никому, даже себе. Мне - можно." (С) группенфюрер Мюллер

@aandrew1 · 29.05.2022, 11:05 **[ТС]**

Сообщение от VTsaregorodtsev

"Верить в наше время нельзя никому, даже себе. Мне - можно." (С) группенфюрер Мюллер

"Полное доверие граничит с безумием." Нелюбимый (Loveless)

Спасибо большое за ваши ответы!

Новые блоги и статьи Все статьи Все блоги /
Отправка уведомления на почту при изменении наименования справочника Maks 24.03.2026 Программная отправка письма электронной почты на примере изменения наименования типового справочника "Склады" в конфигурации БП3. Перед реализацией необходимо выполнить настройку системной учетной. . .	модель ЗдравоСохранения 5. Меньше увольнений- больше дохода! anaschu 24.03.2026 Теперь система здравосохранения уменьшает количество увольнений. 9TO2GP2bpX4 a42b81fb172ffc12ca589c7898261ccb/ https:/ / rutube. ru/ video/ a42b81fb172ffc12ca589c7898261ccb/ Слева синяя линия -. . .	Midnight Chicago Blues kumehtar 24.03.2026 Такой Midnight Chicago Blues, знаешь?. . Когда вечерние улицы становятся ночными, а ты не можешь уснуть. Ты идёшь в любимый старый бар, и бармен наливает тебе виски. Ты смотришь на пролетающие. . .	SDL3 для Desktop (MinGW): Вывод текста со шрифтом TTF с помощью библиотеки SDL3_ttf на Си и C++ 8Observer8 24.03.2026 Содержание блога Финальные проекты на Си и на C++: finish-text-sdl3-c. zip finish-text-sdl3-cpp. zip
Жизнь в неопределённости kumehtar 23.03.2026 Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .	Модель здравоСохранения: работники работают быстрее после её введения. anaschu 23.03.2026 geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .	Контроль уникальности заводского номера Maks 23.03.2026 Алгоритм контроля уникальности заводского (или серийного) номера на примере нетипового документа выдачи шин для спецтехники с табличной частью, разработанного в конфигурации КА2. Данные берутся из. . .	Хочу заставить корпорации вкладываться в здоровье сотрудников: делаю мат модель здравосохранения anaschu 22.03.2026 e7EYtONaj8Y Z4Tv2zpXVVo https:/ / github. com/ shumilovas/ med2. git

@aandrew1 0 / 0 / 0 Регистрация: 14.12.2021 Сообщений: 9
	27.05.2022, 14:34 [ТС]
	Хорошо, а есть ли у вас какие-то предложения? 0

Метод K-means

Решение