|
4 / 4 / 2
Регистрация: 05.02.2013
Сообщений: 441
|
|
Рекуррентная НС для распознавания речи17.04.2017, 14:05. Показов 1220. Ответов 3
Метки нет (Все метки)
Доброго времени суток. Стоит задача написать классификатор для кластеризации языка голоса.
Языка всего 2. Английский и русский. Хотел спросить правильно ли я понял проблему и правильно ли двигаюсь в реализации. В качестве признаков использую 13 MFCC + 13 deriv MFCC + 13 deriv deriv MFCC. В качестве классификатора использую рекуррентную нейронную сеть типа LSTM. Архитектура сети: 39-100-2: 39 - входных нейрона, 100 - юнитов LSTM 2 - выходных нейрона. Один отвечает за русский язык, второй за английский. Сформировал от разных дикторов по 10 часов ИКМ для каждого из языка. Получилось примерно по 150 файлов для каждого языка. Сформировал массив меток для обучения сети. [1 0] - если подаётся файл с русским языком, [0 1] - английский. Все файлы перед подачей перетасовываются. Далее делаю так: Подаю файл на сеть, прогоняю прямым ходом. Проверяю на сходимость. Если не сошлось: двигаюсь от конца к началу для каждого из признака MFCC + dMFCC + ddMFCC (метод обратного распространения ошибки). Другими словами, допустим для файла с русской речью, устанавливаю метку на выходе выставляю в [1 0] и прогоняю весь файл. После этого в обратном ходе делаю так Формирую дельту: ошибка -> выходной слой -> скрытый слой (LSTM) ошибка -> выходной слой -> скрытый слой (LSTM) ошибка -> выходной слой -> скрытый слой (LSTM) . . . ошибка -> выходной слой -> скрытый слой (LSTM) Коррекция весов. Далее беру следующий файл, допустим с английской речью выставляю метку на выходе в [0 1] и дальше как в прошлом случае: Формирую дельту: ошибка -> выходной слой -> скрытый слой (LSTM) ошибка -> выходной слой -> скрытый слой (LSTM) ошибка -> выходной слой -> скрытый слой (LSTM) . . . ошибка -> выходной слой -> скрытый слой (LSTM) и т.д. пока ошибки для всех файлов будут меньше заданного порога. Я правильно понимаю проблему? При реализации столкнулся с проблемой, что для одних файлов во время обучения ошибка уменьшается для других растёт. Допустим ели взять два файла, один с англ речью другой с русской, то для русского файла ошибка будет уменьшаться и идти на убыль, для английского напротив растёт, суммарная ошибка примерно равна 1, т.е. для одного языка уменьшается , для другого увеличивается. Не понимаю, где ошибка или что я делаю не так. В коде вроде ошибок нет, мне кажется где-то фундаментальная ошибка, т.е. я что-то не так понимаю и реализовал соответственно. Буду рад любой информации.
0
|
|
| 17.04.2017, 14:05 | |
|
Ответы с готовыми решениями:
3
Написать программу распознавания речи ПО для распознавания речи API для распознавания речи |
|
28 / 28 / 5
Регистрация: 27.10.2015
Сообщений: 89
|
|
| 18.04.2017, 05:18 | |
|
Вряд ли вам можно конкретно чем-то помочь досконально не разбираясь в теории.
Я не специалист по LSTM, но при использовании любой нейронной сети всегда возникает вопрос: Достаточна ли топология сети для классификации нужных классов с заданными параметрами точности. Очевидно вы не можете взять сеть с 10-ю элементами и качественно разделить, например, тысячу классов. Второй вопрос, представительны ли сами по себе MFCC признаки для достаточно оптимального разделения языков. Я так понимаю задача должна решаться таким способом? Собственно ответы на эти два вопроса скорее всего и обозначат проблему. Проверяйте сам алгоритм реализации LSTM на тестовом известном примере, чтобы исключить ошибки. Далее корректируйте топологию сети в соответствии с рекомендация построения топологий LSTM в разрезе данной задачи.
0
|
|
|
2083 / 1574 / 169
Регистрация: 14.12.2014
Сообщений: 13,614
|
|||
| 18.04.2017, 05:48 | |||
|
Еще один вариант - две сети каждая с одним выходом. Выход дает вероятность того что это язык которому она обучена. Из них выбирается с максимальной вероятностью. Такой подход даст возможность добавлять другие языки не боясь переобучения.
0
|
|||
|
4 / 4 / 2
Регистрация: 05.02.2013
Сообщений: 441
|
|||
| 18.04.2017, 16:38 [ТС] | |||
|
Всем спасибо за ответы.
P.S. Нашёл в чём была проблема, нужно было увеличить длительность окна MFCC.
0
|
|||
| 18.04.2017, 16:38 | |
|
Помогаю со студенческими работами здесь
4
Базы русской речи для синтеза и распознавания Транскрипции слов составления словаря для распознавания речи Требуется С/С++ программист для работы с библиотекой распознавания речи Использование Google Voice Search для распознавания речи Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
| Опции темы | |
|
|
Новые блоги и статьи
|
||||
|
Новый ноутбук
volvo 07.12.2025
Всем привет.
По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне:
Ryzen 5 7533HS
64 Gb DDR5
1Tb NVMe
16" Full HD Display
Win11 Pro
|
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
|
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
|
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов
На странице:
https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/
нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
|
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов.
. . .
|
|
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
|
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
|
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут.
В век Веб все очень привыкли к дизайну Single-Page-Application .
Быстренько разберем подход "на фреймах".
Мы делаем одну. . .
|
Фото: Daniel Greenwood
kumehtar 13.11.2025
|
Расскажи мне о Мире, бродяга
kumehtar 12.11.2025
— Расскажи мне о Мире, бродяга,
Ты же видел моря и метели.
Как сменялись короны и стяги,
Как эпохи стрелою летели.
- Этот мир — это крылья и горы,
Снег и пламя, любовь и тревоги,
И бескрайние. . .
|