Удаление шума нейросетью в pytoch

@Pin240 · Регистрация: 16.07.2022

Студворк — интернет-сервис помощи студентам

В программировании не силен, но по примерам более менее могу собрать нужный скрипт.
Появилась задача удалить разный повторяющийся шум. Однако я почти не понимаю о нейросетях. Везде много всякой бесполезного мусора про картинки, но звук это другое дело. У меня нет мощной видеокарты и поэтому все процессы на цпу.
Относительно долго порылся и итог изысканий вылился в этот код, но я явно делаю неверно :

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
import torch
import torch.nn as nn
import torch.optim as optim
from torchaudio.datasets import SPEECHCOMMANDS
from torchaudio.transforms import Spectrogram
import torch.nn.functional as F
 
device = torch.device('cpu')
torch.set_num_threads(7)
 
 
# Определение модели для удаления шума на основе RNN
class DenoisingRNN(nn.Module):
    def __init__(self):
        super(DenoisingRNN, self).__init__()
        self.rnn = nn.RNN(input_size=81, hidden_size=81, num_layers=2, batch_first=True)
 
    def forward(self, x):
        # Изменение формы входа на (batch_size, seq_len, input_size)
        x = x.squeeze(1)
        out, _ = self.rnn(x)
        return out
 
# Загрузка и предобработка тренировочных данных
print("Загрузка и подготовка training data")
train_data = SPEECHCOMMANDS('orig', download=True)
spectrogram = Spectrogram()
specs = []
 
# Нахождение максимальной длины спектрограмм
max_len = 0
for data in train_data:
    waveform = data[0]
    label = data[2]
    spec = spectrogram(waveform)
    specs.append(spec)
    max_len = max(max_len, spec.shape[2])
 
# Дополнение спектрограмм до максимальной длины
padded_specs = []
for spec in specs:
    pad_size = max_len - spec.shape[2]
    padded_spec = F.pad(spec, (0, pad_size))
    padded_specs.append(padded_spec)
print(f"Load training data ok max_len: {max_len}")
 
# Создание DataLoader и формирование пакетов тренировочных данных
noisy_data = [(spec, spec) for spec in padded_specs]
batch_size = 32
train_loader = torch.utils.data.DataLoader(noisy_data, batch_size=batch_size, shuffle=True)
 
# Инициализация модели и функции потерь
model = DenoisingRNN()
model.to(device)
 
criterion = nn.SmoothL1Loss()
optimizer = optim.RMSprop(model.parameters(), lr=0.001)
 
# Цикл обучения
num_epochs = 10
for epoch in range(num_epochs):
    running_loss = 0.0
    for i, (input_spec, target_spec) in enumerate(train_loader):
        optimizer.zero_grad()
        
        output_spec = model(input_spec)
        target_spec = target_spec.squeeze(1)  # Приведение целевой переменной к нужному размеру
        loss = criterion(output_spec, target_spec)
        
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item()
 
        if (i+1) % 20 == 0:
            print(f'Epoch: {epoch+1}, Batch: {i+1}/{len(train_loader)}, Loss: {running_loss/10:.4f}')
            running_loss = 0.0
 
# Сохранение обученной модели и максимальной длины
torch.save({'model_state_dict': model.state_dict(), 'max_len': max_len}, 'denoising_rnn_model.pth')

этим кодом буду применять модель:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
import torch
import torch.nn as nn
import torch.optim as optim
from torchaudio.transforms import Spectrogram
import torch.nn.functional as F
 
# Определение модели для удаления шума на основе RNN
class DenoisingRNN(nn.Module):
    def __init__(self):
        super(DenoisingRNN, self).__init__()
        self.rnn = nn.RNN(input_size=81, hidden_size=81, num_layers=2, batch_first=True)
 
    def forward(self, x):
        # Изменение формы входа на (batch_size, seq_len, input_size)
        x = x.squeeze(1)
        out, _ = self.rnn(x)
        return out
 
# Загрузка модели и максимальной длины
checkpoint = torch.load('denoising_rnn_model.pth')
model = DenoisingRNN()
model.load_state_dict(checkpoint['model_state_dict'])
model.eval()
 
# Загрузка и предобработка аудиофайла
waveform, sample_rate = torchaudio.load('audio_file.wav')
spectrogram = Spectrogram()
spec = spectrogram(waveform)
 
# Применение модели для удаления шума
padded_spec = F.pad(spec, (0, checkpoint['max_len'] - spec.shape[2]))
output_spec = model(padded_spec.unsqueeze(0))
 
# Сохранение результата
denoised_waveform = torchaudio.transforms.InverseSpectrogram()(output_spec)
torchaudio.save('denoised_audio_file.wav', denoised_waveform, sample_rate)

Для обучения использую готовый дата сет SPEECHCOMMANDS и в него запехнул пример шума который мне нужно будет удалить.

Но не очень понимаю, что сам делаю. По хорошему должно быть 2 каталога с чистым звуком и с шумом и нейронка должна их сравнить. Исходя из это я понимаю что делаю все не верно.

Вопросы:
Почему скрипт после прохождения эпох скрипт сам не заверешается?
Обязательно иметь одинаковую длину в аудио и возможно ли отвязаться от длинны аудио?
При применении модели длина обрабатываемого аудио должна быть такой же как и при обучении?

Новые блоги и статьи Все статьи Все блоги /
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США. Programma_Boinc 26.12.2025 Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США. Нашел на реддите интересную статью под названием «Кто-нибудь знает, где получить бесплатный компьютер или. . .	Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка. Programma_Boinc 23.12.2025 Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .	PhpStorm 2025.3: WSL Terminal всегда стартует в ~ and_y87 14.12.2025 PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .	Как объединить две одинаковые БД Access с разными данными VikBal 11.12.2025 Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.	Новый ноутбук volvo 07.12.2025 Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом volvo 04.12.2025 Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .	От async/await к виртуальным потокам в Python IndentationError 23.11.2025 Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .	Поиск "дружественных имён" СОМ портов Argus19 22.11.2025 Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .	Сколько Государство потратило денег на меня, обеспечивая инсулином. Programma_Boinc 20.11.2025 Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .	Ломающие изменения в C#.NStar Alpha Etyuhibosecyu 20.11.2025 Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .