Форум программистов, компьютерный форум, киберфорум
Статистика, теория вероятностей
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.60/5: Рейтинг темы: голосов - 5, средняя оценка - 4.60
4 / 4 / 1
Регистрация: 14.10.2012
Сообщений: 95

Проверка гипотезы о различии в вероятностях из модели логистической регрессии

29.08.2017, 13:16. Показов 942. Ответов 1
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день!

Такой вопрос возник. Ответа по интернету найти не могу.

Я строю логистическую регрессию с бинарным откликом на наборе из 100 наблюдений, где два регрессора. Предположим, что предположения о данных соблюдаются достаточно для построения хорошей, трактуемой модели. Я получаю оценки вероятности принадлежности к классу 1 p1 для каждого примера в наборе. Для оценок вероятности я считаю стандартные ошибки. se1

Для каждого примера из набора данных появляются новые входные векторы, которые я также подаю на обученную модель. Получают еще один вектор вероятностей. p2. Для них я считаю стандартные ошибки. se2.

Я хочу провести сравнение p1 и p2. Нулевая гипотеза: p2 >= p1; альтернативная гипотеза: p2 < p1. Интуитивно, я хочу понять, значимо ли уменьшилась вероятность принадллежности к классу для каждого наблюдения в наборе данных.

Общий ход размышлений: z_score <- [(p2 - p1)] / pooled_se,
где pooled_se <- sqrt(SEx^2 + SEy^2).

Вопрос: можно ли считать оценки p1, p2, se1, se2 состоятельными, для того, чтобы получить несмещенную оценку z_score. Есть мнение, что они будут зависимы (выборочная оценка не удовлетворяет предположениям), что делает сравнение смещенным.

Код на R:

PureBasic
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
dummy_data <- data.frame(
     x1 = rnorm(100, 0, 1),
     x2 = rnorm(100, 0, 1),
     y = round(runif(100, 0, 1), 0)
)
 
dummy_glm <- glm(y ~ x1 + x2,
                 data = dummy_data,
                 family = binomial(link = 'logit')
                 )
 
#get var-covar matrix of coefficient estimates
 
X <- as.matrix(cbind(rep(1, times = 100), dummy_data[, c('x1', 'x2')]), ncol = 3)
 
### FOR LOGISTIC RGRESSION
 
pi <- dummy_glm$fitted.values
 
w <- pi * (1 - pi)
 
v <- diag(w, length(w), length(w))
 
XtX_inv <- solve(t(X) %*% v %*% X)
 
# standard error for linear combination (first observation in data frame)
 
C <- c(1, dummy_data[1, 'x1'], dummy_data[1, 'x2'])
 
std_err_manually <- as.numeric(sqrt(t(C) %*% XtX_inv %*% C))


Алексей
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
29.08.2017, 13:16
Ответы с готовыми решениями:

Обучение логистической регрессии
Здравствуйте! Есть модель логит регрессии такого вида: y=1/(1+e^(b1*x1....bn*xn)) Здесь bi - веса для параметров xi, а xi -...

Поиск коэффициентов логистической регрессии
Добрый вечер! Есть необходимость обучать логистическую регрессию (найти ее коэффициенты). На одном интернет-ресурсе нашел код, делающий...

Стандартизация коэффициентов логистической регрессии
Добрый вечер! Я нашел коэффициенты логистической регрессии с помощью метода максимального правдоподобия, опираясь на обручающую выборку....

1
4 / 4 / 1
Регистрация: 14.10.2012
Сообщений: 95
20.09.2017, 17:18  [ТС]
Раз никто не отвечает, я добавлю информации для пояснения сути задачи. На stack exchange мне сказали (без развернутых объяснений), что сравнивать вероятности на выходе модели логистической регрессии - в случае одной модели, но разных входных данных - нельзя.

Я попробовал сделать симуляцию на наличие значимой скоррелированности полученных вероятностей в случае одной модели, но разных входных данных, при допущении, что модель качественная, а данные независимы.


PureBasic
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
rm(list = ls()); gc()
 
library(data.table)
 
#dummy_data <- read.csv('dummy_data.csv')
 
dummy_data <- data.table(
     x1 = rnorm(100, 0, 1),
     x2 = rnorm(100, 0, 1)
)
dummy_data[, y := ifelse(x1 + x2 + rnorm(1, 0, 0.5) >= 0, 1, 0)]
 
 
dummy_glm <- glm(y ~ x1 + x2 -1,
                 data = dummy_data,
                 family = binomial(link = 'logit')
                 )
 
summary(dummy_glm)
 
# run simulation
iterations <- 5000
fit_list <- list()
 
for (i in 1:iterations){
 
     fit_list[[i]] <- predict(
          object = dummy_glm,
          newdata = dummy_data,
          se.fit = T,
          type = 'response'
     )$fit
 
     # make new independent inputs vars
 
     dummy_data <- data.table(
          x1 = rnorm(100, 0, 1),
          x2 = rnorm(100, 0, 1)
     )
     dummy_data[, y := ifelse(x1 + x2 + rnorm(1, 0, 0.5) >= 0, 1, 0)]
 
}
 
fit_probabilities <- t(do.call(rbind, fit_list))
 
fit_prob_corr_matrix <- cor(fit_probabilities)
 
x <- fit_prob_corr_matrix[lower.tri(fit_prob_corr_matrix, diag = FALSE)]
 
hist(x, breaks = 'fd', main = paste0('density over Pearson Corr Coef after ', iterations, ' iterations'))
Симуляция показывает, что вектора вероятностей нескореллированы вовсе.


Также я почитал статью социолога про невозможность сравнения коэффициентов разных моделей на подвыборках, где утверждалось, что неучтенные факторы делают невозможным несмещенное сравнение коэффициентов, а также - самих вероятностей.

Возможно, ответ лежит именно в теоретической части?
Миниатюры
Проверка гипотезы о различии в вероятностях из модели логистической регрессии  
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
20.09.2017, 17:18
Помогаю со студенческими работами здесь

Стандартная ошибка коэффициентов логистической регрессии
Здравствуйте! Подскажите по какой формуле рассчитываются стандартные ошибки коэффициентов логистической регрессии? Нашел для парной и...

Проверка гипотезы
На двух аналитических весах, в одном и том же порядке, взвешены 10 проб химического вещества и получены следующие результаты взвешиваний (в...

Проверка гипотезы
Подскажите пожалуйста программу, которая по заданной выборке определяет закон распределения и его числовые характеристики. Спасибо

Проверка гипотезы
Добрый день! В процессе написания курсовой работы зашел в тупик: не понимаю, почему программа выдает совершенно не то, что должна. Суть...

Проверка нулевой гипотезы
Здравствуйте, помогите разобраться, как проверить нулевую гипотезу, что выборка принадлежит совокупности с равномерным распределением R,...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
2
Ответ Создать тему
Новые блоги и статьи
Программный контроль заполнения реквизита табличной части документа
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: реализовать контроль заполнения реквизита "ПричинаСписания". . .
wmic не является внутренней или внешней командой
Maks 02.04.2026
Решение: DISM / Online / Add-Capability / CapabilityName:WMIC~~~~ Отсюда: https:/ / winitpro. ru/ index. php/ 2025/ 02/ 14/ komanda-wmic-ne-naydena/
Программная установка даты и запрет ее изменения
Maks 02.04.2026
Алгоритм из решения ниже реализован на примере нетипового документа "СписаниеМатериалов", разработанного в конфигурации КА2. Задача: при создании документов установить период списания автоматически. . .
Вывод данных в справочнике через динамический список
Maks 01.04.2026
Реализация из решения ниже выполнена на примере нетипового справочника "Спецтехника" разработанного в конфигурации КА2. Задача: вывести данные из ТЧ нетипового документа. . .
Программное заполнения текстового поля в реквизите формы документа
Maks 01.04.2026
Алгоритм из решения ниже реализован на нетиповом документе "ВыдачаОборудованияНаСпецтехнику" разработанного в конфигурации КА2, в дополнении к предыдущему решению. На форме документа создается. . .
К слову об оптимизации
kumehtar 01.04.2026
Вспоминаю начало 2000-х, университет, когда я писал на Delphi. Тогда среди программистов на форумах активно обсуждали аккуратную работу с памятью: нужно было следить за переменными, вовремя. . .
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru