О влиянии sigmoid на обучение сети

@VAF34 · Регистрация: 10.06.2023

Студворк — интернет-сервис помощи студентам

Разыскивая в сети пример программы с дообученнием сети, обнаружил пример простейшей сети с топологией 2-1, которая успешно обучалась различать пары положительных и отрицательных чисел. Ранее в интернете многократно встречались программы, решающие эту задачу в топологии 2-2-1. Вспомнив давнюю не решенную проблему о влиянии нелинейного фактора - sigmoid функций, решил проверить это на простейшей программе. Как и ранее обнаружил, что при отказе от sigmoid сходимость обучения исчезает. Почему?
Ранее видел объяснения о необходимости sigmoid для ограничения диапазона изменений градиентов.
Теперь для простейшего случая разделения положительных и отрицательных чисел понимаю, что для разделения достаточно многократного применения sigmoid, разводящего результат к границам.
Хотелось бы обсудить как проявляется влияние sigmoid на обучение!

@VTsaregorodtsev · 22.09.2025, 11:50

Сообщение от VAF34

разводящего результат к границам.

Ну да, сначала сами создаём себе трудности - а потом их героически преодолеваем.
Вместо одной исходной константы 0 (и условия >=0 над ней) - вводим 2 константы (0 и 1 для сигмоиды) для "эталонных значений" ответов сети.
Т.е. вместо работы с пространством исходных значений признаков без какой-либо нейросетки - делаем линейный/нелинейный mapping (в R или интервал [0,1] - в зависимости от неиспользования/использования сигмоиды у нейронов), но (и в R, и в отрезке) выделяем там 2 значения.
Сколько действий через жопу произойдёт затем при выборе архитектуры сети и выборе/настройке алгоритма обучения - мне угадывать уже лень.

В смысле - есть правильные и есть неправильные выборы/постановки задач для нейросеток.

@VAF34 · 24.09.2025, 13:05 **[ТС]**

Сообщение от VTsaregorodtsev

потом их героически преодолеваем

Еще раз вернулся к проблеме sigmoid. Вспомнил, что моих попытках отказаться от sigmoid я имел дело только с собственно sigmoid, а ее производная почему-то отсутствовала в рассматриваемых примерах. Решил проверить на задаче, где как собственно sigmoid функция, так и ее производная фигурируют явно. Оказалось, что отказ от sigmoid, то есть замена их на Х и 1 соответственно, не нарушает сходимость в задаче распознавания, более того сходимость без sigmoid резко ускоряется. Прицеплен файл с результатами. Та картинка, где сходится быстрее - без sigmoid

@Mikhaylo · 30.09.2025, 16:51

Сигмоида (активационная функция) в выходном слое нужна для задач классификации. Активационная функция не нужна для задач регрессии. Это база, которую надо знать.

Добавлено через 7 минут
А ещё может быть софтмакс или функция потерь - бинарная перекрёстная энтропия с логитами... Тут надо понимать, что в структуре происходит.

@VAF34 · 01.10.2025, 12:53 **[ТС]**

Сообщение от Mikhaylo

Это база, которую надо знать.

К сожалению, не попались мне простые и понятные разъяснения, приходится учиться на своих работающих примерах Вот еще вопрос на засыпку: что важнее количество узлов или скрытых слоев сети. У меня есть примеры простейшей задачи распознавания, когда обучение сети с одним скрытым слоем с большим количеством узлов идет быстрее, чем если такое же число узлов разделить на два скрытых слоя.
Кто-нибудь может это объяснить?
Мне не попалось ни одного рецепта выбора сети. Я задумался об этом увидев пример сети 2,1, которая справлялась с задачей, часто встречавшейся в интернете и решаемой с сетью 2,2,1
Ну и на конец, из общих соображения количество узлов должно зависеть от количества примеров, используемых для обучения.

@Mikhaylo · 01.10.2025, 13:50

Широкая нейросеть может запоминать больше всяких признаков, поэтому она обучается лучше, но не забывайте о переобучении. Это когда нейросеть тупо запоминает все входные данные, не пытаясь найти ограниченный набор наиболее часто попадающихся закономерностей, чтобы потом лучше работать на тестовых данных.

С глубиной чуть посложнее. При движении слева направо на каждом слое конкретность уменьшается, абстрактность увеличивается. (Это антонимы.) Допустим на входе изображение конкретной кошки, в скрытом слое есть нейроны, которые возбуждаются от ушей, от усов, от хвоста, от зубов, от когтей, от черного цвета, от белого цвета, от черно-бело-рыжего цвета и т.д. В этом слое кошечка немного размыта: мы видим признаки более общие - наличие ушей, когтей и черного цвета. На выходном слое мы видим, что единственный нейрон возбудился от кошечки, так как уши, когти и черный цвет - это явно кошка. Глубину нужно выбирать, исходя из сложности структуры данных и от степени ее обобщения. Если зададим глубину побольше, то можно будет сузить ширины слоев, уменьшая переобучение.

Входной слой - пиксели изображения кошки
Слой 2 - уши черные, уши белые, уши серые, уши рыжие, хвост черный, хвост белый, хвост серый, хвост рыжий, когти...
Слой 3 - уши (любого цвета), хвост (любого цвета), когти
Выходной слой - наличие кошки (0/1)

Задача стала чуть проще при переходе от изображения ко второму слою... Значит увеличение глубины не лишено смысла. Примерно так

@VAF34 · 05.10.2025, 12:21 **[ТС]**

Сообщение от Mikhaylo

когда нейросеть тупо запоминает все входные данные, не пытаясь найти ограниченный набор наиболее часто попадающихся закономерностей

У меня есть достаточно простая программы распознавания на с++, позволяющая наглядно демонстрировать различные изменения условий: структуры сети, epochs, learning_step. Хотелось бы понять, как организуется поиск ограниченного набора закономерностей. Потому, что выше подразумевается, что такой поиск производится всегда и только в дефектных случаях он отсутствует. Но, возможно мы говорим о разном. Я о задаче распознавания, но могу и о кластеризации, но там все по другому.

Новые блоги и статьи Все статьи Все блоги /
Знаешь почему 90% людей редко бывают счастливыми? kumehtar 14.04.2026 Потому что они ждут. Ждут выходных, ждут отпуска, ждут удачного момента. . . а удачный момент так и не приходит.	Фиксация колонок в отчете СКД Maks 14.04.2026 Фиксация колонок в СКД отчета типа Таблица. Задача: зафиксировать три левых колонки в отчете. Процедура ПриКомпоновкеРезультата(ДокументРезультат, ДанныеРасшифровки, СтандартнаяОбработка) / / . . .	Настройки VS Code Loafer 13.04.2026 { "cmake. configureOnOpen": false, "diffEditor. ignoreTrimWhitespace": true, "editor. guides. bracketPairs": "active", "extensions. ignoreRecommendations": true, . . .	Оптимизация кода на разграничение прав доступа к элементам формы Maks 13.04.2026 Алгоритм из решения ниже реализован на нетиповом документе, разработанного в конфигурации КА2. Задачи, как таковой, поставлено не было, проделанное ниже исключительно моя инициатива. Было так:. . .
Контроль заполнения и очистка дат в зависимости от значения перечислений Maks 12.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: реализовать контроль корректности заполнения дат назначения. . .	Архитектура слоя интернета для сервера-слоя. Hrethgir 11.04.2026 В продолжение https:/ / www. cyberforum. ru/ blogs/ 223907/ 10860. html Знаешь что я подумал? Раз мы все источники пишем в голове ветки, то ничего не мешает добавить в голову такой источник, который сам. . .	Подстановка значения реквизита справочника в табличную часть документа Maks 10.04.2026 Алгоритм из решения ниже реализован на примере нетипового документа "ПланированиеПерсонала", разработанного в конфигурации КА2. Задача: при выборе сотрудника (справочник Сотрудники) в ТЧ документа. . .	Очистка реквизитов документа при копировании Maks 09.04.2026 Алгоритм из решения ниже применим как для типовых, так и для нетиповых документов на самых различных конфигурациях. Задача: при копировании документа очищать определенные реквизиты и табличную. . .

@VAF34 59 / 59 / 4 Регистрация: 10.06.2023 Сообщений: 912

	О влиянии sigmoid на обучение сети 22.09.2025, 11:07. Показов 1317. Ответов 6 Метки neuro-network, ии, обучение сетей, с++ (Все метки) Разыскивая в сети пример программы с дообученнием сети, обнаружил пример простейшей сети с топологией 2-1, которая успешно обучалась различать пары положительных и отрицательных чисел. Ранее в интернете многократно встречались программы, решающие эту задачу в топологии 2-2-1. Вспомнив давнюю не решенную проблему о влиянии нелинейного фактора - sigmoid функций, решил проверить это на простейшей программе. Как и ранее обнаружил, что при отказе от sigmoid сходимость обучения исчезает. Почему? Ранее видел объяснения о необходимости sigmoid для ограничения диапазона изменений градиентов. Теперь для простейшего случая разделения положительных и отрицательных чисел понимаю, что для разделения достаточно многократного применения sigmoid, разводящего результат к границам. Хотелось бы обсудить как проявляется влияние sigmoid на обучение! 0

@Mikhaylo 699 / 575 / 75 Регистрация: 20.09.2014 Сообщений: 3,738
	30.09.2025, 16:51
	Сигмоида (активационная функция) в выходном слое нужна для задач классификации. Активационная функция не нужна для задач регрессии. Это база, которую надо знать. Добавлено через 7 минут А ещё может быть софтмакс или функция потерь - бинарная перекрёстная энтропия с логитами... Тут надо понимать, что в структуре происходит. 0

@Mikhaylo 699 / 575 / 75 Регистрация: 20.09.2014 Сообщений: 3,738
	01.10.2025, 13:50
	Широкая нейросеть может запоминать больше всяких признаков, поэтому она обучается лучше, но не забывайте о переобучении. Это когда нейросеть тупо запоминает все входные данные, не пытаясь найти ограниченный набор наиболее часто попадающихся закономерностей, чтобы потом лучше работать на тестовых данных. С глубиной чуть посложнее. При движении слева направо на каждом слое конкретность уменьшается, абстрактность увеличивается. (Это антонимы.) Допустим на входе изображение конкретной кошки, в скрытом слое есть нейроны, которые возбуждаются от ушей, от усов, от хвоста, от зубов, от когтей, от черного цвета, от белого цвета, от черно-бело-рыжего цвета и т.д. В этом слое кошечка немного размыта: мы видим признаки более общие - наличие ушей, когтей и черного цвета. На выходном слое мы видим, что единственный нейрон возбудился от кошечки, так как уши, когти и черный цвет - это явно кошка. Глубину нужно выбирать, исходя из сложности структуры данных и от степени ее обобщения. Если зададим глубину побольше, то можно будет сузить ширины слоев, уменьшая переобучение. Входной слой - пиксели изображения кошки Слой 2 - уши черные, уши белые, уши серые, уши рыжие, хвост черный, хвост белый, хвост серый, хвост рыжий, когти... Слой 3 - уши (любого цвета), хвост (любого цвета), когти Выходной слой - наличие кошки (0/1) Задача стала чуть проще при переходе от изображения ко второму слою... Значит увеличение глубины не лишено смысла. Примерно так 0