|
0 / 0 / 0
Регистрация: 07.10.2014
Сообщений: 19
|
|
MFCC + ANN - написать программу распознавания речи29.04.2015, 03:44. Показов 3247. Ответов 3
Метки нет (Все метки)
Добрый день !
Пытаюсь написать программу распознавания своей речи, исключительно для своих личных целей. Разобрался с получением MFCC и имею на выходе при произношении слов в микрофон двумерный массив кепстров MFCC[][]( 44к, 16bit окно 25.6мс шаг 10 мс), встал вопрос их классификации и распознавания, и тут я голову поломал (( при произношении слова "Привет" из 20 вариантов я могу получить кепстры([20][13] - [18][13] - [12][13]... ) абсолютно разной длины массивы, знаю что есть варианты использования усреднения и кластеризации Kmean Accord.NET, и DTW как классификация, но уперся я как баран и хочу всё таки использовать именно Нейросети. И тут для меня встал не решаемый вопрос, если как класс задать Нейрон то его размер входных данных фиксирован, но мои данные они не имеют фиксированной длины. Каким образом нужно скармливать данные в нейросеть что бы получить результат ??? Так же не могу понять какую именно выбрать нейрость для попытки получения результата и понимания процесса взаимосвязи с АНН. Знаю что есть так же широко распространенная модель использования классификации Скрытые Марковы Модели, нарыл в фреймвоке Accord.Net возможно ли использование в моём случаи этого фрейморка, помогите !!! Может ли кто нить описать элементарный процесс скармливания в АНН данных из массивов с разной длиной ? или что требуется сделать с этими данными до их скармливания....короче уже бьюсь 2-ю неделю с этим вопросом....пока глухо....... дайте направление куда рыть. Заранее Благодарю за помощь.
0
|
|
| 29.04.2015, 03:44 | |
|
Ответы с готовыми решениями:
3
Написать программу распознавания речи Написать программу распознавания речи MFCC в системах распознавания команд |
|
0 / 0 / 0
Регистрация: 16.01.2015
Сообщений: 38
|
|
| 29.04.2015, 11:07 | |
|
А зачем здесь нейросеть?
Тут нужен исключительно собственный обработчик , который сможет находить совпадение в коде например буква "П" может занимать от 1-го до 20-ти элементов массива, переход на следующую букву должен занимать меньше, а не следующее слово - больше. Тут нужна исключительно своя, прописанная логика. На счет нейросети, то тоже можно, но мороки с ею будет в разы больше.
0
|
|
|
0 / 0 / 0
Регистрация: 07.10.2014
Сообщений: 19
|
|
| 29.04.2015, 15:04 [ТС] | |
|
Поверь мне, твой метод не имеет вариант как рабочий. Вопрос все ещё актуален.
0
|
|
|
2 / 2 / 1
Регистрация: 20.05.2014
Сообщений: 14
|
|
| 21.05.2017, 15:57 | |
|
Пардон за некропостинг, вдруг кому-то в будущем пригодится.
Для сравнения различных по длине векторов используйте алгоритм DTW.
0
|
|
| 21.05.2017, 15:57 | |
|
Помогаю со студенческими работами здесь
4
Ускорение распознавания речи ПО для распознавания речи Система распознавания речи Динамический вывод распознавания речи Написание системы распознавания речи! Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
||||
|
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта
Симптом:
После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
|
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
|
Новый ноутбук
volvo 07.12.2025
Всем привет.
По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне:
Ryzen 5 7533HS
64 Gb DDR5
1Tb NVMe
16" Full HD Display
Win11 Pro
|
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
|
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
|
|
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов
На странице:
https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/
нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
|
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов.
. . .
|
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
|
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
|
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут.
В век Веб все очень привыкли к дизайну Single-Page-Application .
Быстренько разберем подход "на фреймах".
Мы делаем одну. . .
|