4 / 4 / 2
Регистрация: 05.02.2013
Сообщений: 441

Рекуррентная НС для распознавания речи

17.04.2017, 14:05. Показов 1220. Ответов 3
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Доброго времени суток. Стоит задача написать классификатор для кластеризации языка голоса.
Языка всего 2. Английский и русский.
Хотел спросить правильно ли я понял проблему и правильно ли двигаюсь в реализации.
В качестве признаков использую 13 MFCC + 13 deriv MFCC + 13 deriv deriv MFCC. В качестве классификатора использую рекуррентную нейронную сеть типа LSTM. Архитектура сети: 39-100-2:
39 - входных нейрона,
100 - юнитов LSTM
2 - выходных нейрона. Один отвечает за русский язык, второй за английский.
Сформировал от разных дикторов по 10 часов ИКМ для каждого из языка. Получилось примерно по 150 файлов для каждого языка.
Сформировал массив меток для обучения сети. [1 0] - если подаётся файл с русским языком, [0 1] - английский.
Все файлы перед подачей перетасовываются.
Далее делаю так:
Подаю файл на сеть, прогоняю прямым ходом. Проверяю на сходимость. Если не сошлось: двигаюсь от конца к началу для каждого из признака MFCC + dMFCC + ddMFCC (метод обратного распространения ошибки).
Другими словами, допустим для файла с русской речью, устанавливаю метку на выходе выставляю в [1 0] и прогоняю весь файл. После этого в обратном ходе делаю так
Формирую дельту:
ошибка -> выходной слой -> скрытый слой (LSTM)
ошибка -> выходной слой -> скрытый слой (LSTM)
ошибка -> выходной слой -> скрытый слой (LSTM)
.
.
.
ошибка -> выходной слой -> скрытый слой (LSTM)
Коррекция весов.
Далее беру следующий файл, допустим с английской речью выставляю метку на выходе в [0 1]
и дальше как в прошлом случае:
Формирую дельту:
ошибка -> выходной слой -> скрытый слой (LSTM)
ошибка -> выходной слой -> скрытый слой (LSTM)
ошибка -> выходной слой -> скрытый слой (LSTM)
.
.
.
ошибка -> выходной слой -> скрытый слой (LSTM)

и т.д. пока ошибки для всех файлов будут меньше заданного порога.
Я правильно понимаю проблему?

При реализации столкнулся с проблемой, что для одних файлов во время обучения ошибка уменьшается для других растёт. Допустим ели взять два файла, один с англ речью другой с русской, то для русского файла ошибка будет уменьшаться и идти на убыль, для английского напротив растёт, суммарная ошибка примерно равна 1, т.е. для одного языка уменьшается , для другого увеличивается.
Не понимаю, где ошибка или что я делаю не так. В коде вроде ошибок нет, мне кажется где-то фундаментальная ошибка, т.е. я что-то не так понимаю и реализовал соответственно.
Буду рад любой информации.
0
Programming
Эксперт
39485 / 9562 / 3019
Регистрация: 12.04.2006
Сообщений: 41,671
Блог
17.04.2017, 14:05
Ответы с готовыми решениями:

Написать программу распознавания речи
я чайник в программировании конечно еше тот бейсик тока знал так во лазил по форумам напоролся на ссылку в конце текста написана ну и...

ПО для распознавания речи
Понадобилась прога по сабжу. По указанным ссылка на ifolder скачать прогу не удалось(( У кого завалялся сей экземпляр ?! очень нужно ...

API для распознавания речи
Доброго времени суток. Вообщем пытаюсь найти API с возможностью обучения на своём словаре. Можете подсказать подобное?

3
28 / 28 / 5
Регистрация: 27.10.2015
Сообщений: 89
18.04.2017, 05:18
Вряд ли вам можно конкретно чем-то помочь досконально не разбираясь в теории.
Я не специалист по LSTM, но при использовании любой нейронной сети всегда возникает вопрос:
Достаточна ли топология сети для классификации нужных классов с заданными параметрами точности. Очевидно вы не можете взять сеть с 10-ю элементами и качественно разделить, например, тысячу классов.
Второй вопрос, представительны ли сами по себе MFCC признаки для достаточно оптимального разделения языков. Я так понимаю задача должна решаться таким способом? Собственно ответы на эти два вопроса скорее всего и обозначат проблему.
Проверяйте сам алгоритм реализации LSTM на тестовом известном примере, чтобы исключить ошибки.
Далее корректируйте топологию сети в соответствии с рекомендация построения топологий LSTM в разрезе данной задачи.
0
 Аватар для Fulcrum_013
2083 / 1574 / 169
Регистрация: 14.12.2014
Сообщений: 13,614
18.04.2017, 05:48
Цитата Сообщение от Abraziv__ Посмотреть сообщение
2 - выходных нейрона. Один отвечает за русский язык, второй за английский.
Может стоит подумать над другим подходом? Сделать один выходной нейрон степень возбуждения которого расценивать как вероятность того какой это из языков?
Цитата Сообщение от Abraziv__ Посмотреть сообщение
что для одних файлов во время обучения ошибка уменьшается для других растёт.
НАсколько понимаю это называется переобучение
Еще один вариант - две сети каждая с одним выходом. Выход дает вероятность того что это язык которому она обучена.
Из них выбирается с максимальной вероятностью. Такой подход даст возможность добавлять другие языки не боясь переобучения.
0
4 / 4 / 2
Регистрация: 05.02.2013
Сообщений: 441
18.04.2017, 16:38  [ТС]
Всем спасибо за ответы.
Может стоит подумать над другим подходом? Сделать один выходной нейрон степень возбуждения которого расценивать как вероятность того какой это из языков?
Я так делал изначально, потом отказался от этого из-за ряда причин. Первая это худшая сходимость градиентов, вторая связана с идеей в будущем добавить третий нейрон в выходном слое, который будет отвечать за "unknown", т.е. если сети подсунуть "мусор", то она не будет никого обманывать возбуждая один из нейронов отвечающий за обнаружение языка, а просто возбудит третий дополнительный нейрон. Тогда с 3 нейроном в случае подачи "мусора" какое значение должны принять другой нейрон отвечающий за два языка ???
НАсколько понимаю это называется переобучение
Еще один вариант - две сети каждая с одним выходом. Выход дает вероятность того что это язык которому она обучена.
Из них выбирается с максимальной вероятностью. Такой подход даст возможность добавлять другие языки не боясь переобучения.
Эммм... сеть должна обучаться используя абсолютно все "овощи из корзины", не получится взять помидор, и научить на нём. Не будет работать на огурцах и луке, потому что сеть про них не в курсе. В этом и есть вся суть НС.

P.S. Нашёл в чём была проблема, нужно было увеличить длительность окна MFCC.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
inter-admin
Эксперт
29715 / 6470 / 2152
Регистрация: 06.03.2009
Сообщений: 28,500
Блог
18.04.2017, 16:38
Помогаю со студенческими работами здесь

Существует ли бесплатная платформа для распознавания речи
для с#, но только чтобы определяла не из ограниченных вариантов а полное распознавание Добавлено через 33 минуты и русский язык ...

Базы русской речи для синтеза и распознавания
Здравствуйте форумчане,есть у кого нибудь базы русского языка для распознавания? куски тимит, произнесённые цифры. на форуме эту тему...

Транскрипции слов составления словаря для распознавания речи
Всем привет! Есть незамысловатая программка распознавания русской речи на C#. Это оф-лайн распознавание. Для этого соответственно...

Требуется С/С++ программист для работы с библиотекой распознавания речи
Есть интересная задача для опытного С/С++ программиста со знаниями в области обработки speech, распознавания речи и/или статистических...

Использование Google Voice Search для распознавания речи
Доброго времени суток! Нарыл в интернете статейку по использовании Google Voice Search с исходником написанным на C#. Прошу помощи в...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
4
Ответ Создать тему
Опции темы

Новые блоги и статьи
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
Фото: Daniel Greenwood
kumehtar 13.11.2025
Расскажи мне о Мире, бродяга
kumehtar 12.11.2025
— Расскажи мне о Мире, бродяга, Ты же видел моря и метели. Как сменялись короны и стяги, Как эпохи стрелою летели. - Этот мир — это крылья и горы, Снег и пламя, любовь и тревоги, И бескрайние. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru