BatchNormalization до и после нелинейности. Keras

@ida2 · Регистрация: 16.05.2015

Студворк — интернет-сервис помощи студентам

Добрый день!
Помогите разобраться, пожалуйста.

Как я понимаю, допустимы оба варианта размещения слоя нормализации по мини-батчам:

1) до нелинейности

Python
1
2
3
4
model.add(Dense(LeyersSizes[i], kernel_initializer = LayersInitializers[i]))
model.add(BatchNormalization())
model.add(Activation(LayersActivations[i]))
model.add(Dropout(rate = DropoutRates[i]))

2) после нелинейности

Python
1
2
3
4
model.add(Dense(LeyersSizes[i], kernel_initializer = LayersInitializers[i]))
model.add(Activation(LayersActivations[i]))
model.add(BatchNormalization())
model.add(Dropout(rate = DropoutRates[i]))

А вот такой вариант, будет соответствовать размещению после нелинейности?

Python
1
2
3
model.add(Dense(LeyersSizes[i], kernel_initializer = LayersInitializers[i], activation = LayersActivations[i]))
model.add(BatchNormalization())
model.add(Dropout(rate = DropoutRates[i]))

И еще вопрос.
Известны ли конкретные особенности (преимущества и недостатки) обоих вариантов размещения? В литературе, ограничиваются упоминанием того факта, что оба варианта допустимы (без объяснений).

Спасибо.

@VTsaregorodtsev · 01.03.2020, 20:50

Сообщение от ida2

В литературе, ограничиваются упоминанием того факта, что оба варианта допустимы (без объяснений).

Ну понятно же, что выбор во многом от функции активации должен/будет зависеть.
Например, если tanh - то нормализацию лучше до него. А то tanh может получать такие аргументы, которые будут его постоянно зашкаливать даже не в обе, а в какую-то одну сторону (т.е. даже не до sgn(a) произойдёт вырождение - а просто до одной константы).
Цель-то нормализации - не допускать постоянных выходов нелинейности на асимптоты, и, затем, нулевых производных по причине нахождения значений функции на асимптоте/асимптотах. Вот когда не 1 и не 2 слоя - то в исправляемые нормализацией проблемы добавляется ещё и проблема затухания/взрыва сигналов или градиента, т.е. существенный межслойный разбаланс внутри многослойной сетки.

@ida2 · 02.03.2020, 10:34 **[ТС]**

VTsaregorodtsev, спасибо, начинаю понимать.
Т.е. в случае, когда выход нелинейности ушел в насыщение, то нормализовать после нелинейности уже поздно. А как в случае слоя с ReLU? Там ведь мы, вверх, гипотетически не ограничены. Получим ли мы, в этом случае, выигрыш от использования BatchNormalization? Мои эксперименты показали, что введение BatchNormalization (правда после ReLU), ухудшают результаты.

@VTsaregorodtsev · 02.03.2020, 11:42

Сообщение от ida2

А как в случае слоя с ReLU? Там ведь мы, вверх, гипотетически не ограничены.

Но всё равно нежелательно получать активации (аргументы нелинейности), лежащие только на верхней ветке. Чтобы ReLU (и все прочие нелинейности этого семейства - LeakyReLU и т.д.) не вырождалась в y=a.
В общем, нормализация до нелинейности - гарантированно держит аргументы нелинейности в том интервале, на котором нелинейная функция "хорошо" проявляет своё нелинейное поведение. При правильных схемах инициализации весов (т.е. не просто рандом в каком-то взятом с потолка интервале - а Xavier/He) и, одновременно, небольших начальных значениях шага обучения (т.е. когда известно, что возможный рост весов по амплитуде массово не загонит нелинейности в насыщение через ни через батч, ни через эпоху обучения) - нормализация до нелинейности может быть и не нужна.

А нормализация после нелинейности - это в т.ч. и способ сделать нулевым среднее значение сигналов, проходящих затем через обучаемые синапсы (т.е. участвующих в вычислении производных по весам синапсов сети). Нулевые средние таких сигналов улучшают сходимость обучения, как показал ЛеКун в начале 90ых. Т.е. польза от нормализации в этом месте тоже будет (вместе с пользой от предотвращения затухания либо взрыва сигналов/градиентов) - но эта польза может не перекрыть возможных предыдущих потерь информативности сигналов на нелинейности (из-за плохих значений аргументов нелинейности).

@ida2 · 03.03.2020, 23:52 **[ТС]**

VTsaregorodtsev, еще раз спасибо.

Еще один вопрос. А правильно ли я понимаю, что при использовании слоев BatchNormalization, отпадает необходимость предварительного центрирования/нормализации данных? (Т.к. это будет автоматически выполнено слоем BatchNormalization первого скрытого слоя.)

@VTsaregorodtsev · 04.03.2020, 11:51

Не всегда. Батчнорм не исправит возможную разношкальность признаков - когда при взвешенном суммировании вклад мелкого признака теряется на фоне вклада крупного (отличающегося по интервалу и/или по амплитуде значений на несколько порядков). Сетка может и не выучить весА для мелкого признака так, чтобы он перестал быть шумовым и начал вносить вклад в увеличение точности распознавания.

Для распознавания-анализа обычного фото-видео - указанную проблему можно не учитывать, а если у Вас какие-то съёмки со спутника в сильно разных частях спектра? Или какие-нибудь медицинские анализы, где с давлением человека соседствует мелкая концентрация чего-то в крови/моче?
К тому же на видеокартах сейчас кроме float32 доступны ещё и float16, у которых всего 3 значащих цифры - и вот тут уже при ненормализованных разношкальных входах и желании быстро посчитать во float16-точности можно налететь.

Новые блоги и статьи Все статьи Все блоги /
Расчёт переходных процессов в цепи постоянного тока igorrr37 16.01.2026 / * Дана цепь постоянного тока с R, L, C, k(ключ), U, E, J. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа, решает её и находит токи на L и напряжения на C в установ. режимах до и. . .	Восстановить юзерскрипты Greasemonkey из бэкапа браузера damix 15.01.2026 Если восстановить из бэкапа профиль Firefox после переустановки винды, то список юзерскриптов в Greasemonkey будет пустым. Но восстановить их можно так. Для этого понадобится консольная утилита. . .	Изучаю kubernetes lagorue 13.01.2026 А пригодятся-ли мне знания kubernetes в России?	Сукцессия микоризы: основная теория в виде двух уравнений. anaschu 11.01.2026 https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11 Jel 10.01.2026 WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .	Classic Notepad for Windows 11 Jel 10.01.2026 Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .	Почему дизайн решает? Neotwalker 09.01.2026 В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .	Модель микоризы: классовый агентный подход 3 anaschu 06.01.2026 aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114

@ida2 164 / 134 / 61 Регистрация: 16.05.2015 Сообщений: 372
	02.03.2020, 10:34 [ТС]
	VTsaregorodtsev, спасибо, начинаю понимать. Т.е. в случае, когда выход нелинейности ушел в насыщение, то нормализовать после нелинейности уже поздно. А как в случае слоя с ReLU? Там ведь мы, вверх, гипотетически не ограничены. Получим ли мы, в этом случае, выигрыш от использования BatchNormalization? Мои эксперименты показали, что введение BatchNormalization (правда после ReLU), ухудшают результаты. 0

@ida2 164 / 134 / 61 Регистрация: 16.05.2015 Сообщений: 372
	03.03.2020, 23:52 [ТС]
	VTsaregorodtsev, еще раз спасибо. Еще один вопрос. А правильно ли я понимаю, что при использовании слоев BatchNormalization, отпадает необходимость предварительного центрирования/нормализации данных? (Т.к. это будет автоматически выполнено слоем BatchNormalization первого скрытого слоя.) 0

@VTsaregorodtsev 2625 / 1636 / 266 Регистрация: 19.02.2010 Сообщений: 4,348
	04.03.2020, 11:51
	Не всегда. Батчнорм не исправит возможную разношкальность признаков - когда при взвешенном суммировании вклад мелкого признака теряется на фоне вклада крупного (отличающегося по интервалу и/или по амплитуде значений на несколько порядков). Сетка может и не выучить весА для мелкого признака так, чтобы он перестал быть шумовым и начал вносить вклад в увеличение точности распознавания. Для распознавания-анализа обычного фото-видео - указанную проблему можно не учитывать, а если у Вас какие-то съёмки со спутника в сильно разных частях спектра? Или какие-нибудь медицинские анализы, где с давлением человека соседствует мелкая концентрация чего-то в крови/моче? К тому же на видеокартах сейчас кроме float32 доступны ещё и float16, у которых всего 3 значащих цифры - и вот тут уже при ненормализованных разношкальных входах и желании быстро посчитать во float16-точности можно налететь. 1