Форум программистов, компьютерный форум, киберфорум
Python: Научные вычисления
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
Другие темы раздела
Python Построение модели с использованием полиномиальной функции Добрый день! Сам код from sklearn import datasets, linear_model from sklearn.metrics import r2_score, mean_squared_error from sklearn.preprocessing import PolynomialFeatures from sklearn.linear_model import LinearRegression from sklearn.pipeline import Pipeline from sklearn.model_selection import cross_val_score https://www.cyberforum.ru/ python-science/ thread2172246.html Python Как здесь выбирается тестовая выборка?
Добрый день! Пытаюсь сейчас реализовать приложение для анализа временных рядов (в частности прогнозирование количества посетителей сайта). Рассматриваю нейронные сети и SARIMAX. По этой ссылке https://habrahabr.ru/company/newprolab/blog/339116/ наткнулся на метод обучения модели, который состоит в следующем, цитирую: "Берем данные за полгода и сдвигаем их на неделю назад, чтобы текущая...
Python Найти сумму ряда Доброго времени суток. Задача : составить программу, вычисляющую с помощью итерационного цикла сумму ряда: представляющего собой разложение функции в указанном интервале . Точность вычисления (eps) вводить с клавиатуры. Вывод результата в процессе отладки программы (итоговую сумму и проверочное значение функции) осуществлять с помощью print, а окончательно - во внешний файл lab7_3.out. ... https://www.cyberforum.ru/ python-science/ thread2167666.html Python Обнулить первый отрицательный элемент квадратной матрицы Дана квадратная матрица размерности n. Обнулите первый отрицательный элемент матрицы https://www.cyberforum.ru/ python-science/ thread2167634.html
Напечатать в порядке возрастания все нечетные числа, кратные 7, в промежутке [1 .. n] Python
помагите плз Дано натуральное число N. Составить программу, печатающую в порядке возрастания все не четные числа кратные 7 в промежутке . Число n вводится с клавиатуры.
Python Не найден модуль matrix_np_api https://www.cyberforum.ru/ python-science/ thread2167127.html
Здравствуйте! При запуске программы выходит такая ошибка: ModuleNotFoundError: No module named 'matrix_np_api'. Вот первые 2 строчки программы: import numpy as np from matrix_np_api import * Сначала выходила ошибка, что numpy не найдена, установила через командную строку, ошибка пропала. И появилась вышеназванная. Установила аналогично через командную строку ...Scripts\pip3 install...
Python Как найти пропущенные значения в датасете и удалить их? Дан датасет, где пропущенные значения обозначены как "?". Нужно найти все признаки, имеющие пропущенные значения. И затем удалить из выборки все объекты с пропусками. Спасибо за помощь!! https://www.cyberforum.ru/ python-science/ thread2166436.html Python Ошибка в коде
Подскажите пожалуйста касательно модуля 'networkx'. AttributeError: module 'networkx' has no attribute 'graphviz_layout' import requests import networkx import time import collections
Python Графы https://www.cyberforum.ru/ python-science/ thread2164851.html
Подскажите пожалуйста, как быть? Хочу реализовать форму, где человек вводя ФИО1 и ФИО2, находил связи между людьми по параметры ( например по адресу). Выводился параметр по которому они связаны, и осуществлялся вывод доп связанных людей, т.к. они тоже имеют этот параметр. Смотрю в сторону graph-tool. Может ли данная библиотека реализовать это? Можно ли данную работы вставить в winforms?
Python Наложение условия на переменные Решаю нехитрое уравнение. Вид решения значительно упростился бы, если бы система знала, (o1**2 + p1**2 + s1**2 == 1) и (o2**2 + p2**2 + s2**2 == 1) Как бы эти ограничения системе скормить? #!/usr/bin/env python3 #coding: utf-8 from sympy import * x1, y1, z1, o1, p1, s1, t1, x2, y2, z2, o2, p2, s2, t2 = symbols("x1, y1, z1, o1, p1, s1, t1, x2, y2, z2, o2, p2, s2, t2") https://www.cyberforum.ru/ python-science/ thread2163012.html
Алгоритм ГОСТ Р 34.12-2015 «МАГМА» Python
Доброго времени суток! Столкнулся со следующей проблемой. Реализовал вышеописанный алгоритм, однако он не работает в режиме расшифровки. Преподаватель сказал, что в связи с использованием сети Фейстеля, скорее всего ошибка где-то на этапах взятия ключа или обмена старших битов с младшими. Но я уже все перепробовал -- ничего. Программа состоит из двух файлов: start.py и tools.py. Последний...
Python Извлечение видеокарты при тренировки сети Добрый день. Столкнулся с вот такой проблемой. Установил TF с расчетами на GPU, поставил поверх keras. День работал и обучал нейросеть, построенную с помощью keras без проблем и обучал на GPU. Но сегодня при попытке обучить сеть выдает сообщении об извлечении видеокарты, а процесс обучения начинается на CPU. Кто-нибудь сталкивался с такой проблемой или может знает, как вылечить? Код, многие... https://www.cyberforum.ru/ python-science/ thread2159978.html
0 / 0 / 0
Регистрация: 09.08.2015
Сообщений: 55
0

ROC-кривые - Python - Ответ 12021150

11.01.2018, 12:58. Показов 2569. Ответов 1
Метки (Все метки)

Author24 — интернет-сервис помощи студентам
Здравствуйте!

Не могу понять как провести оценку модели, и вывести ROC-кривые. Подскажите пожалуйста, как это сделать.
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
# загрузим библиотеки и установим опции
 
from __future__ import division, print_function
# отключим всякие предупреждения Anaconda
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
from matplotlib import pyplot as plt
import seaborn as sns
 
import pickle
import numpy as np
import pandas as pd
from scipy.sparse import csr_matrix
from scipy.sparse import hstack
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import roc_auc_score
from sklearn.linear_model import LogisticRegression
 
from sklearn.datasets import load_files
from sklearn.svm import LinearSVC
 
 
# загрузим обучающую и тестовую выборки
train_df = pd.read_csv('C:/Users/Kazzi/Desktop/mlcourse_open-master/data/train_sessions.csv',
                       index_col='session_id')
test_df = pd.read_csv('C:/Users/Kazzi/Desktop/mlcourse_open-master/data/test_sessions.csv',
                      index_col='session_id')
 
# приведем колонки time1, ..., time10 к временному формату
times = ['time%s' % i for i in range(1, 11)]
train_df[times] = train_df[times].apply(pd.to_datetime)
test_df[times] = test_df[times].apply(pd.to_datetime)
 
# отсортируем данные по времени
train_df = train_df.sort_values(by='time1')
 
# посмотрим на заголовок обучающей выборки
train_df.head()
 
# приведем колонки site1, ..., site10 к целочисленному формату и заменим пропуски нулями
sites = ['site%s' % i for i in range(1, 11)]
train_df[sites] = train_df[sites].fillna(0).astype('int')
test_df[sites] = test_df[sites].fillna(0).astype('int')
 
# загрузим словарик сайтов
with open(r"C:/Users/Kazzi/Desktop/mlcourse_open-master/data/site_dic.pkl", "rb") as input_file:
    site_dict = pickle.load(input_file)
 
# датафрейм словарика сайтов
sites_dict = pd.DataFrame(list(site_dict.keys()), index=list(site_dict.values()), columns=['site'])
print(u'всего сайтов:', sites_dict.shape[0])
sites_dict.head()
 
# топ-сайты в обучающей выборке
top_sites = pd.Series(train_df[sites].fillna(0).values.flatten()
                     ).value_counts().sort_values(ascending=False).head(5)
print(top_sites)
sites_dict.ix[top_sites.index]
 
 
time_df = pd.DataFrame(index=train_df.index)
time_df['target'] = train_df['target']
 
# найдем время начала и окончания сессии
time_df['min'] = train_df[times].min(axis=1)
time_df['max'] = train_df[times].max(axis=1)
 
# вычислим длительность сессии и переведем в секунды
time_df['seconds'] = (time_df['max'] - time_df['min']) / np.timedelta64(1, 's')
 
time_df.head()
# создадим отдельный датафрейм, где будем работать со временем
time_df = pd.DataFrame(index=train_df.index)
time_df['target'] = train_df['target']# найдем время начала и окончания сессии
time_df['min'] = train_df[times].min(axis=1)
time_df['max'] = train_df[times].max(axis=1)# вычислим длительность сессии и переведем в секунды
time_df['seconds'] = (time_df['max'] - time_df['min']) / np.timedelta64(1, 's')
​
time_df.head()
 
# наша целевая переменная
y_train = train_df['target']
 
# объединенная таблица исходных данных
full_df = pd.concat([train_df.drop('target', axis=1), test_df])
 
# индекс, по которому будем отделять обучающую выборку от тестовой
idx_split = train_df.shape[0]
 
full_df.corr()
 
# табличка с индексами посещенных сайтов в сессии
full_sites = full_df[sites]
full_sites.head()
 
# последовательность с индексами
sites_flatten = full_sites.values.flatten()
 
# искомая матрица
full_sites_sparse = csr_matrix(([1] * sites_flatten.shape[0],
                                sites_flatten,
                                range(0, sites_flatten.shape[0]  + 10, 10)))[:, 1:]
 
%%time
# выделим из объединенной выборки только обучающую (для которой есть ответы)
X_train = full_sites_sparse[:idx_split, :]
 
# считаем метрику на валидационной выборке
print(get_auc_lr_valid(X_train, y_train))
 
# функция для записи прогнозов в файл
def write_to_submission_file(predicted_labels, out_file,
                             target='target', index_label="session_id"):
    predicted_df = pd.DataFrame(predicted_labels,
                                index = np.arange(1, predicted_labels.shape[0] + 1),
                                columns=[target])
    predicted_df.to_csv(out_file, index_label=index_label)
 
# обучим модель на всей выборке
# random_state=17 для воспроизводимости
# параметр C=1 по умолчанию, но здесь мы его укажем явно
lr = LogisticRegression(C=1.0, random_state=17).fit(X_train, y_train)
 
# обучим модель на всей выборке
# random_state=17 для воспроизводимости
# параметр C=1 по умолчанию, но здесь мы его укажем явно
lr = LogisticRegression(C=1.0, random_state=17).fit(X_train, y_train)
 
def plot_grid_scores(grid, param_name):
    plt.plot(grid.param_grid[param_name], grid.cv_results_['mean_train_score'],
        color='green', label='train')
    plt.plot(grid.param_grid[param_name], grid.cv_results_['mean_test_score'],
        color='red', label='test')
    plt.legend();
 
visualize_coefficients(lr, site_dict)
 
 
full_new_feat = pd.DataFrame(index=full_df.index)
 
# добавим признак start_month
full_new_feat['start_month'] = full_df['time1'].apply(lambda ts: 100 * ts.year + ts.month)
# датафрейм для новых признаков
 
# рассчитаем количество сессий Элис по месяцам
tmp = full_new_feat.ix[:idx_split, 'start_month'].to_frame()
tmp['target'] = y_train
stm_vs_target = tmp.groupby('start_month')['target'].sum()
 
# вывод таблички
print(stm_vs_target)
 
 
# построим график
x_axis = stm_vs_target.index
y_axis = stm_vs_target.values
fig=plt.figure(figsize=(12, 8))
ax1=fig.add_subplot(111)
line1 = ax1.plot(y_axis,'ro',label='line1')
plt.xticks(range(len(y_axis)), x_axis)
ax1.set_ylabel('y values',fontsize=12)
lines = line1
labels = [l.get_label() for l in lines]
ax1.set_xlabel('ГГГГММ',fontsize=14)
ax1.set_ylabel('Кол-во сессий',fontsize=14)
plt.setp(ax1.get_xticklabels(), visible=True)
plt.suptitle(u'Количество сессий Элис по месяцам', y=1.0, fontsize=17)
fig.tight_layout()
fig.subplots_adjust(top=0.96,bottom=0.4)
plt.show() 
 
# добавим новый признак в разреженную матрицу
tmp = full_new_feat[['start_month']].as_matrix()
X_train = csr_matrix(hstack([full_sites_sparse[:idx_split,:], tmp[:idx_split,:]]))
 
# считаем метрику на валидационной выборке
print(get_auc_lr_valid(X_train, y_train))
 
# добавим новый стандартизированный признак в разреженную матрицу
tmp = StandardScaler().fit_transform(full_new_feat[['start_month']])
X_train = csr_matrix(hstack([full_sites_sparse[:idx_split,:], tmp[:idx_split,:]]))
 
# считаем метрику на валидационной выборке
print(get_auc_lr_valid(X_train, y_train))
 
full_new_feat['start_hour'] = full_df['time1'].apply(lambda ts: ts.hour)
full_new_feat['morning'] = full_new_feat['start_hour'].apply(lambda hour: int(hour <= 11))
 
 
# scaled start_hour
tmp_scaled = StandardScaler().fit_transform(full_new_feat[['start_month', 'start_hour']])
X_train = csr_matrix(hstack([full_sites_sparse[:idx_split,:], 
                             tmp_scaled[:idx_split,:]]))
print(get_auc_lr_valid(X_train, y_train))
# 0.957924006323 <---
 
# raw start_hour
tmp_raw = full_new_feat[['start_hour']].as_matrix()
tmp_scaled = StandardScaler().fit_transform(full_new_feat[['start_month']])
X_train = csr_matrix(hstack([full_sites_sparse[:idx_split,:], 
                             tmp_scaled[:idx_split,:]]))
print(get_auc_lr_valid(X_train, y_train))
# 0.919698464197
 
 
 
# scaled morning
tmp_scaled = StandardScaler().fit_transform(full_new_feat[['start_month', 'morning']])
X_train = csr_matrix(hstack([full_sites_sparse[:idx_split,:], 
                             tmp_scaled[:idx_split,:],
                             tmp_raw[:idx_split,:]]))
print(get_auc_lr_valid(X_train, y_train))
# 0.958430928728 <---
                         
# raw morning
tmp_raw = full_new_feat[['morning']].as_matrix()
tmp_scaled = StandardScaler().fit_transform(full_new_feat[['start_month']])
X_train = csr_matrix(hstack([full_sites_sparse[:idx_split,:], 
                             tmp_scaled[:idx_split,:],
                             tmp_raw[:idx_split,:]]))
print(get_auc_lr_valid(X_train, y_train))
# 0.948665199943
 
 
# start_hour и morning
tmp_scaled = StandardScaler().fit_transform(full_new_feat[['start_month', 'start_hour', 'morning']])
X_train = csr_matrix(hstack([full_sites_sparse[:idx_split,:], 
                             tmp_scaled[:idx_split,:]]))
print(get_auc_lr_valid(X_train, y_train))
# 0.959149043641 <---
 
full_new_feat.corr()
 
# формируем обучающую выборку
tmp_scaled = StandardScaler().fit_transform(full_new_feat[['start_month', 'start_hour', 'morning']])
X_train = csr_matrix(hstack([full_sites_sparse[:idx_split,:], 
                             tmp_scaled[:idx_split,:]]))
 
# зафиксируем качество с параметрами по умолчанию
score_C_1 = get_auc_lr_valid(X_train, y_train)
print(score_C_1)
 
%%time
# набор возможных значений С
Cs = np.logspace(-3, 1, 10)
 
scores = []
    
for C in Cs:
    scores.append(get_auc_lr_valid(X_train, y_train, C=C))
 
plt.plot(Cs, scores, 'ro-')
plt.xscale('log')
plt.xlabel('C')
plt.ylabel('AUC-ROC')
plt.title('Подбор коэффициента регуляризации')
# горизонтальная линия -- качество модели с коэффициентом по умолчанию
plt.axhline(y=score_C_1, linewidth=.5, color = 'b', linestyle='dashed') 
plt.show()
 
# подготовим данные для обучения и теста
tmp_scaled = StandardScaler().fit_transform(full_new_feat[['start_month', 'start_hour', 'morning']])
X_train = csr_matrix(hstack([full_sites_sparse[:idx_split,:], 
                             tmp_scaled[:idx_split,:]]))
X_test = csr_matrix(hstack([full_sites_sparse[idx_split:,:], 
                            tmp_scaled[idx_split:,:]]))
 
# обучим модель на всей выборке с оптимальным коэффициентом регуляризации
lr = LogisticRegression(C=C, random_state=17).fit(X_train, y_train)


Вернуться к обсуждению:
ROC-кривые Python
0
Заказать работу у эксперта
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
11.01.2018, 12:58
Готовые ответы и решения:

Кривые в OpenGL
Подскажите пожалуйста, как достроить на графике окружность сверху , в задании было указано, что...

Построить кривые по заданному параметрическому представлению
Кто-то может объяснить как это сделать? Буду очень благодарен, если напишете программу)

Почему получаются кривые графики? Как убрать треугольники
Почему получаются кривые графики? не понятно почему появляются треугольники на графике вот код: ...

контроллер ROC 809
Уважаемые коллеги! Изучаю контроллер ROC 809. Хотел спросить может у кого то есть руководство...

1
11.01.2018, 12:58
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
11.01.2018, 12:58
Помогаю со студенческими работами здесь

Низкая производительность в Warcraft 3 ROC/TFT
Привет, в общем недавно купил ноутбук, и конечно же захотелось поиграть в старый варик, и тут как...

Как быть и кто виноват? roccat pyra roc 11-300
Купил себе пару лет назад мышь roccat pyra roc 11-300 mobile gaming mouse и под неё коврик от...

Доверительные интервалы (AUC). Нужна помощь в нахождении интервалов для уже построенной ROC кривой
Добрый вечер. Прошу помощи в нахождении интервалов для уже построенной ROC кривой. Имеются классы...

задание-подобрать нужный ОУ и резисторы Roc и R1, при частроте=1кГц,напряжении=10мВ. Построить принципиальную схему
прикладываю текст задания, и образец в котором нужно просто заменить f=1 КГц, и U=10мВ. А также...

Кривые на С++
Добрый день. Есть такая задача: имеются 4 точки на плоскости, их координаты известны. При условии,...

Кривые Серпинсого
На рисунке изображены кривые Серпинского 1 и 2-го порядков. Составить программу построения кривых...

0
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru