Проверка гипотезы о различии в вероятностях из модели логистической регрессии

@alexmosc · Регистрация: 14.10.2012

Студворк — интернет-сервис помощи студентам

Добрый день!

Такой вопрос возник. Ответа по интернету найти не могу.

Я строю логистическую регрессию с бинарным откликом на наборе из 100 наблюдений, где два регрессора. Предположим, что предположения о данных соблюдаются достаточно для построения хорошей, трактуемой модели. Я получаю оценки вероятности принадлежности к классу 1 p1 для каждого примера в наборе. Для оценок вероятности я считаю стандартные ошибки. se1

Для каждого примера из набора данных появляются новые входные векторы, которые я также подаю на обученную модель. Получают еще один вектор вероятностей. p2. Для них я считаю стандартные ошибки. se2.

Я хочу провести сравнение p1 и p2. Нулевая гипотеза: p2 >= p1; альтернативная гипотеза: p2 < p1. Интуитивно, я хочу понять, значимо ли уменьшилась вероятность принадллежности к классу для каждого наблюдения в наборе данных.

Общий ход размышлений: z_score <- [(p2 - p1)] / pooled_se,
где pooled_se <- sqrt(SEx^2 + SEy^2).

Вопрос: можно ли считать оценки p1, p2, se1, se2 состоятельными, для того, чтобы получить несмещенную оценку z_score. Есть мнение, что они будут зависимы (выборочная оценка не удовлетворяет предположениям), что делает сравнение смещенным.

Код на R:

PureBasic
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
dummy_data <- data.frame(
     x1 = rnorm(100, 0, 1),
     x2 = rnorm(100, 0, 1),
     y = round(runif(100, 0, 1), 0)
)
 
dummy_glm <- glm(y ~ x1 + x2,
                 data = dummy_data,
                 family = binomial(link = 'logit')
                 )
 
#get var-covar matrix of coefficient estimates
 
X <- as.matrix(cbind(rep(1, times = 100), dummy_data[, c('x1', 'x2')]), ncol = 3)
 
### FOR LOGISTIC RGRESSION
 
pi <- dummy_glm$fitted.values
 
w <- pi * (1 - pi)
 
v <- diag(w, length(w), length(w))
 
XtX_inv <- solve(t(X) %*% v %*% X)
 
# standard error for linear combination (first observation in data frame)
 
C <- c(1, dummy_data[1, 'x1'], dummy_data[1, 'x2'])
 
std_err_manually <- as.numeric(sqrt(t(C) %*% XtX_inv %*% C))

Алексей

@alexmosc · 20.09.2017, 17:18 **[ТС]**

Раз никто не отвечает, я добавлю информации для пояснения сути задачи. На stack exchange мне сказали (без развернутых объяснений), что сравнивать вероятности на выходе модели логистической регрессии - в случае одной модели, но разных входных данных - нельзя.

Я попробовал сделать симуляцию на наличие значимой скоррелированности полученных вероятностей в случае одной модели, но разных входных данных, при допущении, что модель качественная, а данные независимы.

PureBasic
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
rm(list = ls()); gc()
 
library(data.table)
 
#dummy_data <- read.csv('dummy_data.csv')
 
dummy_data <- data.table(
     x1 = rnorm(100, 0, 1),
     x2 = rnorm(100, 0, 1)
)
dummy_data[, y := ifelse(x1 + x2 + rnorm(1, 0, 0.5) >= 0, 1, 0)]
 
 
dummy_glm <- glm(y ~ x1 + x2 -1,
                 data = dummy_data,
                 family = binomial(link = 'logit')
                 )
 
summary(dummy_glm)
 
# run simulation
iterations <- 5000
fit_list <- list()
 
for (i in 1:iterations){
 
     fit_list[[i]] <- predict(
          object = dummy_glm,
          newdata = dummy_data,
          se.fit = T,
          type = 'response'
     )$fit
 
     # make new independent inputs vars
 
     dummy_data <- data.table(
          x1 = rnorm(100, 0, 1),
          x2 = rnorm(100, 0, 1)
     )
     dummy_data[, y := ifelse(x1 + x2 + rnorm(1, 0, 0.5) >= 0, 1, 0)]
 
}
 
fit_probabilities <- t(do.call(rbind, fit_list))
 
fit_prob_corr_matrix <- cor(fit_probabilities)
 
x <- fit_prob_corr_matrix[lower.tri(fit_prob_corr_matrix, diag = FALSE)]
 
hist(x, breaks = 'fd', main = paste0('density over Pearson Corr Coef after ', iterations, ' iterations'))

Симуляция показывает, что вектора вероятностей нескореллированы вовсе.

Также я почитал статью социолога про невозможность сравнения коэффициентов разных моделей на подвыборках, где утверждалось, что неучтенные факторы делают невозможным несмещенное сравнение коэффициентов, а также - самих вероятностей.

Возможно, ответ лежит именно в теоретической части?

Новые блоги и статьи Все статьи Все блоги /
Программный контроль заполнения реквизита табличной части документа Maks 02.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита "ПричинаСписания". . .	wmic не является внутренней или внешней командой Maks 02.04.2026 Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/	Программная установка даты и запрет ее изменения Maks 02.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .	Вывод данных в справочнике через динамический список Maks 01.04.2026 Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Программное заполнения текстового поля в реквизите формы документа Maks 01.04.2026 Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .	К слову об оптимизации kumehtar 01.04.2026 Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .	Идея фильтра интернета (сервер = слой+фильтр). Hrethgir 31.03.2026 Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .	Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда anaschu 31.03.2026 В прикрепленном документе раздумья о том, как можно поменять модель в будущем