Форум программистов, компьютерный форум, киберфорум
Python: Научные вычисления
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.60/5: Рейтинг темы: голосов - 5, средняя оценка - 4.60
164 / 134 / 61
Регистрация: 16.05.2015
Сообщений: 372

BatchNormalization до и после нелинейности. Keras

27.02.2020, 19:24. Показов 1054. Ответов 5
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Добрый день!
Помогите разобраться, пожалуйста.

Как я понимаю, допустимы оба варианта размещения слоя нормализации по мини-батчам:

1) до нелинейности
Python
1
2
3
4
model.add(Dense(LeyersSizes[i], kernel_initializer = LayersInitializers[i]))
model.add(BatchNormalization())
model.add(Activation(LayersActivations[i]))
model.add(Dropout(rate = DropoutRates[i]))
2) после нелинейности
Python
1
2
3
4
model.add(Dense(LeyersSizes[i], kernel_initializer = LayersInitializers[i]))
model.add(Activation(LayersActivations[i]))
model.add(BatchNormalization())
model.add(Dropout(rate = DropoutRates[i]))
А вот такой вариант, будет соответствовать размещению после нелинейности?
Python
1
2
3
model.add(Dense(LeyersSizes[i], kernel_initializer = LayersInitializers[i], activation = LayersActivations[i]))
model.add(BatchNormalization())
model.add(Dropout(rate = DropoutRates[i]))
И еще вопрос.
Известны ли конкретные особенности (преимущества и недостатки) обоих вариантов размещения? В литературе, ограничиваются упоминанием того факта, что оба варианта допустимы (без объяснений).

Спасибо.
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
27.02.2020, 19:24
Ответы с готовыми решениями:

Keras BatchNormalization
Добрый день. во время экспериментов с нейронными сетями решил использовать слой BatchNormalization. Он обучился сохранил сеть всё вроде...

ImportError: cannot import name 'BatchNormalization' from 'keras.layers.normalization'
Доброго времени суток! Не могу разобраться с ошибкой, нужна помощь. Прошерстил кучу страниц гугла на тему этй ошибки, но ничего не...

Расчет погрешности нелинейности
Добрый день. Нужна ваша помощь. есть график зависимости f(x) нужно найти погрешность нелинейности? есть ли в Matlab какая команда,...

5
2741 / 1667 / 268
Регистрация: 19.02.2010
Сообщений: 4,411
01.03.2020, 20:50
Цитата Сообщение от ida2 Посмотреть сообщение
В литературе, ограничиваются упоминанием того факта, что оба варианта допустимы (без объяснений).
Ну понятно же, что выбор во многом от функции активации должен/будет зависеть.
Например, если tanh - то нормализацию лучше до него. А то tanh может получать такие аргументы, которые будут его постоянно зашкаливать даже не в обе, а в какую-то одну сторону (т.е. даже не до sgn(a) произойдёт вырождение - а просто до одной константы).
Цель-то нормализации - не допускать постоянных выходов нелинейности на асимптоты, и, затем, нулевых производных по причине нахождения значений функции на асимптоте/асимптотах. Вот когда не 1 и не 2 слоя - то в исправляемые нормализацией проблемы добавляется ещё и проблема затухания/взрыва сигналов или градиента, т.е. существенный межслойный разбаланс внутри многослойной сетки.
1
164 / 134 / 61
Регистрация: 16.05.2015
Сообщений: 372
02.03.2020, 10:34  [ТС]
VTsaregorodtsev, спасибо, начинаю понимать.
Т.е. в случае, когда выход нелинейности ушел в насыщение, то нормализовать после нелинейности уже поздно. А как в случае слоя с ReLU? Там ведь мы, вверх, гипотетически не ограничены. Получим ли мы, в этом случае, выигрыш от использования BatchNormalization? Мои эксперименты показали, что введение BatchNormalization (правда после ReLU), ухудшают результаты.
0
2741 / 1667 / 268
Регистрация: 19.02.2010
Сообщений: 4,411
02.03.2020, 11:42
Цитата Сообщение от ida2 Посмотреть сообщение
А как в случае слоя с ReLU? Там ведь мы, вверх, гипотетически не ограничены.
Но всё равно нежелательно получать активации (аргументы нелинейности), лежащие только на верхней ветке. Чтобы ReLU (и все прочие нелинейности этого семейства - LeakyReLU и т.д.) не вырождалась в y=a.
В общем, нормализация до нелинейности - гарантированно держит аргументы нелинейности в том интервале, на котором нелинейная функция "хорошо" проявляет своё нелинейное поведение. При правильных схемах инициализации весов (т.е. не просто рандом в каком-то взятом с потолка интервале - а Xavier/He) и, одновременно, небольших начальных значениях шага обучения (т.е. когда известно, что возможный рост весов по амплитуде массово не загонит нелинейности в насыщение через ни через батч, ни через эпоху обучения) - нормализация до нелинейности может быть и не нужна.

А нормализация после нелинейности - это в т.ч. и способ сделать нулевым среднее значение сигналов, проходящих затем через обучаемые синапсы (т.е. участвующих в вычислении производных по весам синапсов сети). Нулевые средние таких сигналов улучшают сходимость обучения, как показал ЛеКун в начале 90ых. Т.е. польза от нормализации в этом месте тоже будет (вместе с пользой от предотвращения затухания либо взрыва сигналов/градиентов) - но эта польза может не перекрыть возможных предыдущих потерь информативности сигналов на нелинейности (из-за плохих значений аргументов нелинейности).
1
164 / 134 / 61
Регистрация: 16.05.2015
Сообщений: 372
03.03.2020, 23:52  [ТС]
VTsaregorodtsev, еще раз спасибо.

Еще один вопрос. А правильно ли я понимаю, что при использовании слоев BatchNormalization, отпадает необходимость предварительного центрирования/нормализации данных? (Т.к. это будет автоматически выполнено слоем BatchNormalization первого скрытого слоя.)
0
2741 / 1667 / 268
Регистрация: 19.02.2010
Сообщений: 4,411
04.03.2020, 11:51
Не всегда. Батчнорм не исправит возможную разношкальность признаков - когда при взвешенном суммировании вклад мелкого признака теряется на фоне вклада крупного (отличающегося по интервалу и/или по амплитуде значений на несколько порядков). Сетка может и не выучить весА для мелкого признака так, чтобы он перестал быть шумовым и начал вносить вклад в увеличение точности распознавания.

Для распознавания-анализа обычного фото-видео - указанную проблему можно не учитывать, а если у Вас какие-то съёмки со спутника в сильно разных частях спектра? Или какие-нибудь медицинские анализы, где с давлением человека соседствует мелкая концентрация чего-то в крови/моче?
К тому же на видеокартах сейчас кроме float32 доступны ещё и float16, у которых всего 3 значащих цифры - и вот тут уже при ненормализованных разношкальных входах и желании быстро посчитать во float16-точности можно налететь.
1
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
04.03.2020, 11:51
Помогаю со студенческими работами здесь

Задача на доказательство,связана со степенью нелинейности б.ф. и ее весом
Доказать, что ||f(x1,..xn)||>={2}^{(n-k)} , если deg f(x1,..xn)=k>0. ___________ из условия следует, что в многочлене Жегалкина не...

Четырехволновое взаимодействие с попутными волнами накачки на керровской нелинейности при больших коэффициентах отражения
Кто нибудь занимался такой темой? Если да, то помогите пожалуйста с расчетами(привести к конечному уравнению).

Исследования входных цепей: Что следует предпринимать для уменьшения влияния нелинейности характеристик варикапа?
Какие эффекты могут возникать во входных цепях, перестраиваемых с помощью варикапов? Что следует предпринимать для уменьшения влияния...

Keras vs TensorBoard
Доброе время суток. Имеется код нейронной сети на Keras с использованием TensorFlow. Всё хорошо, она работает, обучается и выдаёт нужные...

Keras Normalization
Добрый день. Подскажите пожалуйста простыми словами каково назначение функции Normalization в пакете Keras...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
6
Ответ Создать тему
Новые блоги и статьи
Идея фильтра интернета (сервер = слой+фильтр).
Hrethgir 31.03.2026
Суть идеи заключается в том, чтобы запустить свой сервер, о чём я если честно мечтал давно и давно приобрёл книгу как это сделать. Но не было причин его запускать. Очумелые учёные напечатали на. . .
Модель здравосоХранения 6. ESG-повестка и устойчивое развитие; углублённый анализ кадрового бренда
anaschu 31.03.2026
В прикрепленном документе раздумья о том, как можно поменять модель в будущем
10 пpимет, которые всегда сбываются
Maks 31.03.2026
1. Чтобы, наконец, пришла маршрутка, надо закурить. Если сигарета последняя, маршрутка придет еще до второй затяжки даже вопреки расписанию. 2. Нaдоели зима и снег? Не надо переезжать. Достаточно. . .
Перемещение выделенных строк ТЧ из одного документа в другой
Maks 31.03.2026
Реализация из решения ниже выполнена на примере нетипового документа "ВыдачаОборудованияНаСпецтехнику" с единственной табличной частью "ОборудованиеИКомплектующие" разработанного в конфигурации КА2. . . .
Functional First Web Framework Suave
DevAlt 30.03.2026
Sauve. IO Апнулись до NET10. Из зависимостей один пакет, работает одинаково хорошо как в режиме проекта так и в интерактивном режиме. из сложностей - чисто функциональный подход. Решил. . .
Автоматическое создание документа при проведении другого документа
Maks 29.03.2026
Реализация из решения ниже выполнена на нетиповых документах, разработанных в конфигурации КА2. Есть нетиповой документ "ЗаявкаНаРемонтСпецтехники" и нетиповой документ "ПланированиеСпецтехники". В. . .
Настройка движения справочника по регистру сведений
Maks 29.03.2026
Решение ниже реализовано на примере нетипового справочника "ТарифыМобильнойСвязи" разработанного в конфигурации КА2, с целью учета корпоративной мобильной связи в коммерческом предприятии. . . .
Автозаполнение реквизита при выборе элемента справочника
Maks 27.03.2026
Программный код из решения ниже на примере нетипового документа "ЗаявкаНаРемонтСпецтехники" разработанного в конфигурации КА2. При выборе "Спецтехники" (Тип Справочник. Спецтехника), заполняется. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru