0 / 0 / 0
Регистрация: 01.04.2024
Сообщений: 17

Высокая тестовая ошибка у нейросети/как коррекно реализовать Dropout методом регуляризации?

07.12.2025, 20:42. Показов 700. Ответов 5

Студворк — интернет-сервис помощи студентам
Здравствуйте! Для учебы писалась простая нейросеть, распознающая цифры. На вход дается поле 3х5 (то есть 15 пикселей), пользователь вводит цифру, а нейросеть должна ее "отгадать". К нейросети было требование: необходимо было реализовать график средних энергий ошибок. Важно, чтоб нейросеть сходилась меньше, чем за 10 эпох (это сделано), а также, чтоб тестовая ошибка равнялась примерно 0,005 (и даже меньше. В общем, была приближена к 0).

Какая у меня проблема:
Мои тестовые значения слишком большие! И у меня никак не получается это исправить. Было предложено сделать функцию Dropout, которая обнуляла бы часть весов, но даже с ней ситуация не изменилась вообще.
У меня также были попытки отредактировать выборку, но это все равно ни на что не повлияло.

Также, буквально только что я заметил, что моя нейросеть слишком "уверенная" в себе: какую бы корявую цифру я не написал, она все равно будет выдавать результат со 100%. Причем иногда результат совсем неверен.

Я предполагаю, что все это происходит из-за того, что моя нейросеть переобучается. Но я совсем не знаю, как это исправить.


Код, в котором реализован dropout:
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
Network.cs:
using System;
using System.IO;
using System.Windows.Forms;
 
 
namespace MO_32_1_Pascal_Rabotaet.NeuroNet
{
    class Network
    {
        private InputLaer input_layer = null;
        private HiddenLayer hidden_layer1 = new HiddenLayer(71, 15, NeuronType.Hidden, nameof(hidden_layer1));
        private HiddenLayer hidden_layer2 = new HiddenLayer(32, 71, NeuronType.Hidden, nameof(hidden_layer2));
        private OutputLayer output_layer = new OutputLayer(10, 32, NeuronType.Output, nameof(output_layer));
        private double[] fact = new double[10];
        private double[] e_error_avr;
 
        public double[] Fact { get => fact; }
 
        public double[] E_error_avr { get => e_error_avr; set => e_error_avr = value; }
 
        public Network() { }
 
        public void ForwardPass(Network net, double[] netInput)
        {
            net.hidden_layer1.Data = netInput;
            net.hidden_layer1.Recognize(null, net.hidden_layer2);
            net.hidden_layer2.Recognize(null, net.output_layer);
            net.output_layer.Recognize(net, null);
        }
 
        public void Train(Network net)
        {
            net.input_layer=new InputLaer(NetworkMode.Train);
            int epoches = 5;
            double tmpSumError;
            double[] errors;
            double[] temp_gsums1;
            double[] temp_gsums2;
 
            e_error_avr=new double[epoches];
            for(int k=0;k<epoches;k++)
            {
                e_error_avr[k]=0;
                net.input_layer.Shuffling_Array_Rows(net.input_layer.Trainset);
                for(int i=0;i<net.input_layer.Trainset.GetLength(0);i++)
                {
                    double[] tmpTrain =new double[15];
                    for(int j=0;j<tmpTrain.Length;j++)
                        tmpTrain[j]=net.input_layer.Trainset[i,j+1];
 
                    ForwardPass(net, tmpTrain);
 
                    //вычисление ошибки
                    tmpSumError = 0;
                    errors = new double[net.fact.Length];
                    for (int x = 0; x < errors.Length; x++)
                    {
                        if (x == (int)net.input_layer.Trainset[i, 0])
                            errors[x] = 1.0 - net.fact[x];
                        else
                            errors[x] = 0.0 - net.fact[x]; 
                        tmpSumError += errors[x] * errors[x] / 2;
                    }
 
                    e_error_avr[k] += tmpSumError / errors.Length;
 
                    //обратный проход и коррекция весов
                    temp_gsums2 = net.output_layer.BackwardPass(errors);
                    temp_gsums1 = net.hidden_layer2.BackwardPass(temp_gsums2);
                    net.hidden_layer1.BackwardPass(temp_gsums1);
                }
 
                e_error_avr[k]/=net.input_layer.Trainset.GetLength(0);
            }
            net.input_layer = null;
 
            net.hidden_layer1.WeightInitialize(MemoryMode.SET,nameof(hidden_layer1)+"_memory.csv");
            net.hidden_layer2.WeightInitialize(MemoryMode.SET, nameof(hidden_layer2) + "_memory.csv");
            net.output_layer.WeightInitialize(MemoryMode.SET, nameof(output_layer) + "_memory.csv");
        }
 
        public void DropoutFiles(double percent)
        {
            ApplyDropoutToFile(nameof(hidden_layer1) + "_memory.csv", percent);
            ApplyDropoutToFile(nameof(hidden_layer2) + "_memory.csv", percent);
            ApplyDropoutToFile(nameof(output_layer) + "_memory.csv", percent);
        }
 
        private void ApplyDropoutToFile(string filename, double percent)
        {
            string path = Path.Combine(AppDomain.CurrentDomain.BaseDirectory, filename);
            var lines = File.ReadAllLines(path);
            Random rnd = new Random();
 
            for (int i = 0; i < lines.Length; i++)
            {
                var parts = lines[i].Split(';');
 
                for (int j = 0; j < parts.Length; j++)
                {
                    if (rnd.NextDouble() < percent)
                        parts[j] = "0";
                }
 
                lines[i] = string.Join(";", parts);
            }
            File.WriteAllLines(path, lines);
        }
 
        public void Test(Network net)
        {
            net.input_layer = new InputLaer(NetworkMode.Test);
            int epoches = 5;
            double tmpSumError;
            double[] errors;
 
            e_error_avr = new double[epoches];
            for (int k = 0; k < epoches; k++)
            {
                e_error_avr[k] = 0;
                net.input_layer.Shuffling_Array_Rows(net.input_layer.Testset);
 
                for (int i = 0; i < net.input_layer.Testset.GetLength(0); i++)
                {
                    double[] tmpTrain = new double[15];
                    for (int j = 0; j < tmpTrain.Length; j++)
                        tmpTrain[j] = net.input_layer.Testset[i, j + 1];
 
                    ForwardPass(net, tmpTrain);
 
                    tmpSumError = 0;
                    errors = new double[net.fact.Length];
 
                    for (int x = 0; x < errors.Length; x++)
                    {
                        if (x == net.input_layer.Testset[i, 0])
                            errors[x] = 1.0 - net.fact[x];
                        else
                            errors[x] = 0.0-net.fact[x];
 
                        tmpSumError += errors[x] * errors[x] / 2;
                    }
 
                    e_error_avr[k] += tmpSumError / errors.Length;
                }
 
                e_error_avr[k] /= net.input_layer.Testset.GetLength(0);
            }
 
            net.input_layer = null;
        }
 
    }
}

Так как кода много, я прикладываю зип! В тему не помещается второй важный файл: laer.cs, где происходит инициализация весов.
В зипе можно будет посмотреть файлы, отвечающие за форвард, бэквард пассы, мою выборку и последние веса, и прочее.

Хотелось бы прикрепить график, но форум не позволяет загрузить фото.

Очень прошу помощи! Если не исправление кода, то быть может объяснение, в какую сторону мне двигаться, чтоб добиться корректного результата.

Примечание: моя нейросеть основывается на LeakyRELU. Код учебный, имеет свои странности!
Вложения
Тип файла: zip MO-32-1_Pascal_Rabotaet.zip (202.9 Кб, 10 просмотров)
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
07.12.2025, 20:42
Ответы с готовыми решениями:

Программа для тестов - как грамотно подойти к редактированию тестов
Что я пишу: Вот пишу приложение для создания тестов, dll с классами самих тестов и приложение,...

Обозреватель тестов не видит тестов при открытии решения с расшаренного сетевого диска
Всем привет! Есть &quot;решение&quot; с несколькими проектами, пересобирается это &quot;решение&quot; прекрасно....

сначала запускаю с низким, а затем с высоким. В итоге пока поток с низким приоритетом не завершит работу, приоритет с высоким даже не стартует.
Есть две кнопки на форме, каждая из которых запускает свой поток. Для первой ставлю приоритет самый...

5
0 / 0 / 0
Регистрация: 01.04.2024
Сообщений: 17
07.12.2025, 21:00  [ТС]
Хочется себя дополнить. Я исправил одну вещь в другом файле (см. вложения предыдущего сообщения для полного контекста):
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
Neuron.cs:
using static System.Math;
 
namespace MO_32_1_Pascal_Rabotaet.NeuroNet
{
    class Neuron
    {
        //поля
        private NeuronType type; //тип нейрона
        private double[] weights; // его веса
        private double[] inputs; // его входы
        private double output; // его выход
        private double derivative; // первая производная функция активации
                                   //свойства
        public double[] Weights { get => weights; set => weights = value; }
        public double[] Inputs { get => inputs; set => inputs = value; }
        public double Output { get => output; }
        public double Derivative { get => derivative; }
 
        //константы для функции активации
        private double a = 0.01d;
 
        // конструктор
        public Neuron(double[] memoryWeights, NeuronType typeNeuron)
        {
            type = typeNeuron;
            weights = memoryWeights;
        }
        public void Activator(double[] i)
        {
            inputs = i;
            double sum = weights[0];
            for (int j = 0; j < inputs.Length; j++)
            {
                sum += inputs[j] * weights[j + 1];
            }
 
            switch (type)
            {
                case NeuronType.Hidden:
                    output = LeakyReLU(sum);
                    derivative = LeakyReLU_Derivativator(sum);
                    break;
                case NeuronType.Output:
                    output = sum;
                    break;
            }
        }
 
        private double LeakyReLU(double sum)
        {
            if (sum > 0)
            {
                return sum;
            }
            else
            {
                return a * sum;
            }
        }
 
        private double LeakyReLU_Derivativator(double sum)
        {
            if (sum > 0)
            {
                return 1;
            }
            else
            {
                return a;
            }
        }
 
    }
}
А именно вот здесь, убрав экспоненту у sum:
C#
1
2
3
case NeuronType.Output:
                    output = sum;
                    break;
Это помогло ускорить нейросеть еще больше, а также исправить проблему с распознаванием чисел. Но проблема тестовых ошибок все еще осталась.
0
2627 / 1639 / 266
Регистрация: 19.02.2010
Сообщений: 4,350
07.12.2025, 23:38
Цитата Сообщение от Demyanov_ Посмотреть сообщение
Было предложено сделать функцию Dropout, которая обнуляла бы часть весов
Дропаут обнуляет не веса'.
Но после обучения с дропаутом - коррекция значений весов (за исключением значений смещений (biases)) слоёв (только тех, НА ВХОДЕ которых делался дропаут) нужна.
0
0 / 0 / 0
Регистрация: 01.04.2024
Сообщений: 17
08.12.2025, 02:15  [ТС]
Получается, дропаут вообще никак не помогает в ситуации с тестовой ошибкой?

----------------
Я узнал, что если сильно увеличить скорость у нейросети (файл Laer), то тогда страдают эпохи. Но, если все таки довести нейросеть до сходимости, она выдаст приличный результат тестовой ошибки. Проблема в том, что сходиться нейросеть начинает за 50 эпох (и это если повезет), то ужасно, учитывая тот факт, что мне нужно меньше 10.

Мне сказали, что вся моя проблема заключается в том, что я попадаю в "локальный" минимум, а не глобальный. Как я понял, это можно исправить путем подбора скорости и моментума. Но как я их не крутил, ситуация неизменчива.
0
2627 / 1639 / 266
Регистрация: 19.02.2010
Сообщений: 4,350
08.12.2025, 13:41
Цитата Сообщение от Demyanov_ Посмотреть сообщение
Получается, дропаут вообще никак не помогает в ситуации с тестовой ошибкой?
Помогает.
Если проблема с чтением английского - то см хотя-бы на графики ошибок (на те, в подписях к которым или на которых упоминаются test set или validation set) непосредственно из статьи изобретателей https://arxiv.org/pdf/1207.0580 Там везде показаны результаты для обучений как без, так и с дропаутом.
Но понятно, что и задачи (базы данных) там могли подбираться так, чтобы отличия вышли посущественнее для человеческого глаза (ибо с формальной точки зрения - необходимо проверять статистические гипотезы о равенстве или различии результатов), и что могут существовать задачи (или даже связки "задача + архитектура нейронки + настройки алгоритма обучения"), где дропаут может не помочь.

Но оба моих тутошних поста - только лишь для совета изучать и реализовывать алгоритмы по оригинальным публикациям авторов. Это проще, чем разбираться в созданной пересказчиками/рерайтерами помойке и собственноручным наступанием на грабли выяснять, где в той помойке правда, где только лишь малополезная часть правды (из-за недосказанности чего-то нужного/важного), а где просто враньё/некомпетентность.
Т.е. сейчас - дропаут в коде реализован принципиально неправильно. Архив с кодом не смотрел - т.е. ХЗ сколько других ошибок может быть ещё и там.
0
698 / 572 / 75
Регистрация: 20.09.2014
Сообщений: 3,700
15.12.2025, 21:32
Цитата Сообщение от VTsaregorodtsev Посмотреть сообщение
Дропаут обнуляет не веса'.
Перепутано с дроп-коннектом. Похожая техника, где обнуляются веса.
https://stats.stackexchange.co... op-connect

Добавлено через 7 минут
Что можно сделать ещё: обновляйте веса не сразу в обратном проходе слоя, а сначала накопив дельты в отдельных массивах deltaw. Обновление весов в SGD делается после прямого и обратного прохода по всей нейросети. При обратном проходе происходит накопление изменений весов без изменений последних. Либо ещё реже - mini-batch-GD - после изучения батча изображений, обычно порядка 32-256 изображений.

Добавлено через 11 минут
Почему функция потерь MSE не участвует в обратном распространении ошибки? Или я плохо вижу?

Добавлено через 6 минут
И почему не используете искусственный интеллект? Он вам такой код на раз-два распишет.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
15.12.2025, 21:32
Помогаю со студенческими работами здесь

Матрица: вывести название самой высокой вершины мира, самой высокой вершины заданной страны
Дан массив данных, в котором хранятся данные о вершинах гор: название, высота, страна...

Странное поведение ошибки в нейросети
Суть следующего характера. Изучаю обычный перцептрон. Даю на вход выборку с простой задачей. Есть...

Как распознать изображения с помощью нейросети
Всем привет. Вот сижу и пытаюсь понять как распознать изображения с помощью нейросети. Мне нужно...

Нейросети в прогнозировании. Как научить сеть иногда пропускать ставку?
Всем привет ! В рамках дипломной работы решил сделать нейросеть для прогнозирования кол-ва...

Распознавание символов с помощью нейросети
Здравствуйте! у меня дипломная работа, так называемая &quot;Распознавание символов с помощью нейросети&quot;....


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Опции темы

Новые блоги и статьи
http://iceja.net/ сервер решения полиномов
iceja 18.01.2026
Выкатила http:/ / iceja. net/ сервер решения полиномов (находит действительные корни полиномов методом Штурма). На сайте документация по API, но скажу прямо VPS слабенький и 200 000 полиномов. . .
Первый деплой
lagorue 16.01.2026
Не спеша развернул своё 1ое приложение в kubernetes. А дальше мне интересно создать 1фронтэнд приложения и 2 бэкэнд приложения развернуть 2 деплоя в кубере получится 2 сервиса и что-бы они. . .
Расчёт переходных процессов в цепи постоянного тока
igorrr37 16.01.2026
/ * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит: токи, напряжения и их 1 и 2 производные при t = 0;. . .
Восстановить юзерскрипты Greasemonkey из бэкапа браузера
damix 15.01.2026
Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .
Изучаю kubernetes
lagorue 13.01.2026
А пригодятся-ли мне знания kubernetes в России?
Сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru