Форум программистов, компьютерный форум, киберфорум
Python: ИИ, нейросети, ML, агенты
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
2 / 2 / 0
Регистрация: 16.07.2022
Сообщений: 42

Удаление шума нейросетью в pytoch

25.11.2023, 15:55. Показов 1431. Ответов 0

Студворк — интернет-сервис помощи студентам
В программировании не силен, но по примерам более менее могу собрать нужный скрипт.
Появилась задача удалить разный повторяющийся шум. Однако я почти не понимаю о нейросетях. Везде много всякой бесполезного мусора про картинки, но звук это другое дело. У меня нет мощной видеокарты и поэтому все процессы на цпу.
Относительно долго порылся и итог изысканий вылился в этот код, но я явно делаю неверно :

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
import torch
import torch.nn as nn
import torch.optim as optim
from torchaudio.datasets import SPEECHCOMMANDS
from torchaudio.transforms import Spectrogram
import torch.nn.functional as F
 
device = torch.device('cpu')
torch.set_num_threads(7)
 
 
# Определение модели для удаления шума на основе RNN
class DenoisingRNN(nn.Module):
    def __init__(self):
        super(DenoisingRNN, self).__init__()
        self.rnn = nn.RNN(input_size=81, hidden_size=81, num_layers=2, batch_first=True)
 
    def forward(self, x):
        # Изменение формы входа на (batch_size, seq_len, input_size)
        x = x.squeeze(1)
        out, _ = self.rnn(x)
        return out
 
# Загрузка и предобработка тренировочных данных
print("Загрузка и подготовка training data")
train_data = SPEECHCOMMANDS('orig', download=True)
spectrogram = Spectrogram()
specs = []
 
# Нахождение максимальной длины спектрограмм
max_len = 0
for data in train_data:
    waveform = data[0]
    label = data[2]
    spec = spectrogram(waveform)
    specs.append(spec)
    max_len = max(max_len, spec.shape[2])
 
# Дополнение спектрограмм до максимальной длины
padded_specs = []
for spec in specs:
    pad_size = max_len - spec.shape[2]
    padded_spec = F.pad(spec, (0, pad_size))
    padded_specs.append(padded_spec)
print(f"Load training data ok max_len: {max_len}")
 
# Создание DataLoader и формирование пакетов тренировочных данных
noisy_data = [(spec, spec) for spec in padded_specs]
batch_size = 32
train_loader = torch.utils.data.DataLoader(noisy_data, batch_size=batch_size, shuffle=True)
 
# Инициализация модели и функции потерь
model = DenoisingRNN()
model.to(device)
 
criterion = nn.SmoothL1Loss()
optimizer = optim.RMSprop(model.parameters(), lr=0.001)
 
# Цикл обучения
num_epochs = 10
for epoch in range(num_epochs):
    running_loss = 0.0
    for i, (input_spec, target_spec) in enumerate(train_loader):
        optimizer.zero_grad()
        
        output_spec = model(input_spec)
        target_spec = target_spec.squeeze(1)  # Приведение целевой переменной к нужному размеру
        loss = criterion(output_spec, target_spec)
        
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item()
 
        if (i+1) % 20 == 0:
            print(f'Epoch: {epoch+1}, Batch: {i+1}/{len(train_loader)}, Loss: {running_loss/10:.4f}')
            running_loss = 0.0
 
# Сохранение обученной модели и максимальной длины
torch.save({'model_state_dict': model.state_dict(), 'max_len': max_len}, 'denoising_rnn_model.pth')
этим кодом буду применять модель:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
import torch
import torch.nn as nn
import torch.optim as optim
from torchaudio.transforms import Spectrogram
import torch.nn.functional as F
 
# Определение модели для удаления шума на основе RNN
class DenoisingRNN(nn.Module):
    def __init__(self):
        super(DenoisingRNN, self).__init__()
        self.rnn = nn.RNN(input_size=81, hidden_size=81, num_layers=2, batch_first=True)
 
    def forward(self, x):
        # Изменение формы входа на (batch_size, seq_len, input_size)
        x = x.squeeze(1)
        out, _ = self.rnn(x)
        return out
 
# Загрузка модели и максимальной длины
checkpoint = torch.load('denoising_rnn_model.pth')
model = DenoisingRNN()
model.load_state_dict(checkpoint['model_state_dict'])
model.eval()
 
# Загрузка и предобработка аудиофайла
waveform, sample_rate = torchaudio.load('audio_file.wav')
spectrogram = Spectrogram()
spec = spectrogram(waveform)
 
# Применение модели для удаления шума
padded_spec = F.pad(spec, (0, checkpoint['max_len'] - spec.shape[2]))
output_spec = model(padded_spec.unsqueeze(0))
 
# Сохранение результата
denoised_waveform = torchaudio.transforms.InverseSpectrogram()(output_spec)
torchaudio.save('denoised_audio_file.wav', denoised_waveform, sample_rate)

Для обучения использую готовый дата сет SPEECHCOMMANDS и в него запехнул пример шума который мне нужно будет удалить.

Но не очень понимаю, что сам делаю. По хорошему должно быть 2 каталога с чистым звуком и с шумом и нейронка должна их сравнить. Исходя из это я понимаю что делаю все не верно.

Вопросы:
Почему скрипт после прохождения эпох скрипт сам не заверешается?
Обязательно иметь одинаковую длину в аудио и возможно ли отвязаться от длинны аудио?
При применении модели длина обрабатываемого аудио должна быть такой же как и при обучении?
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
25.11.2023, 15:55
Ответы с готовыми решениями:

Удаление шума
Добрый день, чем можно убрать вот этот шум с записи? Пробовал Audacity удаление шума, тресков итд.не получается, может вы посоветуйте? ...

Удаление шума на аудиодорожке
Требуется удалить шум на аудиодорожке. Аудиодорожка идет потоково - в реальном времени, через микрофон. Либо открывается файл. Куда...

Удаление лишнего шума
Имеется аудио дорожка, где звуки печатанья по клавиатуре перебивают голос. Подскажите пожалуйста Можно ли в данной аудио записи вырезать...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
25.11.2023, 15:55
Помогаю со студенческими работами здесь

Сглаживающий фильтр (удаление шума на изображении)
Пытался реализовать данный фильтр, но что то не так делаю. Происходит окрас picturebox в цвет фона изображения отпечатка паьца. Метод...

Работа с нейросетью
Доброго веремени суток! Хочу создать на базе библиотек FANN сеть, такую чтоб она закидала новые слова в файл. так чтобы скормить...

Распознавание букв нейросетью
Кто подскажет алгоритм понятный начинающему в шарпах (да и вообще в программировании), по распознаванию рукописного текста, методом...

Не правильная классификация нейросетью
Всем привет! На цветках ириса Фишера не верно классифицируются объекты самой выборки. Нейросеть их все относит к 1 классу. clear; ...

Работа над нейросетью
Доброго времени. Работаю над нейросетью. и есть несколько вопросов. 1. почему тестовые данные имеют разные размеры.(Х в 2 раза больше...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США. Нашел на реддите интересную статью под названием «Кто-нибудь знает, где получить бесплатный компьютер или. . .
Thinkpad X220 Tablet — это лучший бюджетный ноутбук для учёбы, точка.
Programma_Boinc 23.12.2025
Рецензия / Мнение/ Перевод Нашел на реддите интересную статью под названием The Thinkpad X220 Tablet is the best budget school laptop period . Ниже её машинный перевод. Thinkpad X220 Tablet —. . .
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Как объединить две одинаковые БД Access с разными данными
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru