С Новым годом! Форум программистов, компьютерный форум, киберфорум
Электроника и радиотехника
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.64/33: Рейтинг темы: голосов - 33, средняя оценка - 4.64
0 / 0 / 0
Регистрация: 09.09.2011
Сообщений: 98

Система распознавания голоса

04.10.2013, 14:57. Показов 6419. Ответов 8
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Здравствуйте.

Как думаете, реально ли сделать простую систему распознавания голоса? Тоесть система должна не распознавать, что говорит человек, а узнавать человека по голосу.

Пример, в базе данных хранится 20-30 образцов голоса и нужно узнать кто именно говорит в данный момент.

На данный момент я планирую сделать следующим образом (нагуглил):
1) Запись голоса с микрофона
2) Фильтрация шумов
3) Получение спектра частот (Быстрое преобразование Фурье)
4) алгоритм MFCC и получение признаков (мел-частотные кепстральные коефициенты)
5) сравнение реальных образцов с образцами в БД

Вроде возможно, но будет ли оно реально работать? Возможно кто-то таким интересовался уже?

Поделитесь, пожалуйста, опытом. Буду рад любим советам.
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
04.10.2013, 14:57
Ответы с готовыми решениями:

Отмена распознавания голоса
Создаю интент с распознаванием Intent listenIntent; private void startVoiceRecognitionActivity() { listenIntent = new...

Библиотека для распознавания голоса
посоветуйте библиотеку для работы с голосом на objective-c для ios, чтобы можно было распознать когда человек начинает говорить и в это...

На чем писать программу распознавания и обработки голоса?
Необходимо написать программу ( или же сайт) в которой можно управлять только голосом.Подскажите на чем написаны подобные проекты?как можно...

8
0 / 0 / 0
Регистрация: 08.02.2012
Сообщений: 648
04.10.2013, 18:51
Как-то встречал модуль с мк на sparkfun.som который позволял запрограммировать до 20 команд, который распознавал комады, но там основная проблемма была в том что меняешь немного интонацию и не распознает, меняешь скорость речи и снова косяк...
Используя API гугла можно записать речь отправить в инет и получить строку с распознаным текстом, сейчас в 4 индроиде уже и инет не нужен, но над этим долго бились математики и программисты, но если сможешь такое сделать можно сразу патентовать :-)
0
0 / 0 / 0
Регистрация: 18.03.2010
Сообщений: 2,230
04.10.2013, 19:08
Цитата Сообщение от sitimur
но если сможешь такое сделать можно сразу патентовать :-)
или платить тому, кто придумал это же быстрее.
0
1 / 1 / 0
Регистрация: 11.01.2013
Сообщений: 5,479
04.10.2013, 20:44
Цитата Сообщение от sitimur
Используя API гугла можно записать речь отправить в инет и получить строку с распознаным текстом
Сетевой сервис Google распознаёт саму речь (возвращает текст), а у ТС в вопросе было - различать голоса разных людей. Читаем внимательно:
система должна не распознавать, что говорит человек, а узнавать человека по голосу
0
0 / 0 / 0
Регистрация: 08.02.2012
Сообщений: 648
04.10.2013, 22:37
Я понял что различать людей, по сервис это я так немного не в тему написал. Когда-то очень интересовался этой темой, но понял что используется достаточно заумная математика, и самому не осилить было, а те кто осилил явно не хотели поделиться и рассказать хоть немного как это сделали, а так было-бы интересно посмотреть на такую реализацию, и описанием как это удалось :-)
0
0 / 0 / 0
Регистрация: 09.09.2011
Сообщений: 98
04.10.2013, 23:00
про Google Voice API я тоже думал, но это не совсем то.

> Как-то встречал модуль с мк на sparkfun.som
это не обязательно должна быть апаратная реализация.
0
1 / 1 / 0
Регистрация: 11.01.2013
Сообщений: 5,479
04.10.2013, 23:27
Цитата Сообщение от sitimur
Когда-то очень интересовался этой темой, но понял что используется достаточно заумная математика, и самому не осилить было, а те кто осилил явно не хотели поделиться и рассказать хоть немного как это сделали, а так было-бы интересно посмотреть на такую реализацию, и описанием как это удалось :-)
Если интересует этот оффтопик :-) с распознаванием через Google, то вот imho хорошая статья - видели её? Проект и необходимые ссылочки в статье есть.
0
0 / 0 / 0
Регистрация: 22.04.2013
Сообщений: 752
06.10.2013, 22:47
...дык, автономности-то все равно нет. А раз речь зашла за оффтоп и действительно автономно, то RF4CE от TI и Bluetooth Smart с Nuance.
0
0 / 0 / 0
Регистрация: 08.02.2012
Сообщений: 648
31.10.2013, 21:41
Вот нашел статью http://we.iosyitistromyss.ru/part/vse-o ... vrbot.html тут как раз есть фишка настройки под конкретного человека :-)
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
31.10.2013, 21:41
Помогаю со студенческими работами здесь

Программа распознавания голоса и выполнения простых команд не запускается
Стояла задача сделать программу, в которой реализовано распознавание речи, взял демонстрационную с офф сайта microsoft...

keras speech recognition обучение нейросети для распознавания голоса
Хочу обучить свою нейросеть, записал аудиозаписи в формате .AU 2-3 секундные, но появляется ошибка could not broadcast input array from...

Система распознавания по лицу
У меня есть проблема. Я хочу написать что-то похожее на турникет, с распознаванием лица. Использую при этом gocv и kagami/go-face . У меня...

Система распознавания речи
Хочу написать программу которая работала бы как Google Voice Search (Голосовой поиск Гугл) только на компьютере! Приблизительно знаю схему!...

Экспертная система для распознавания пород собак
Необходимо создать экспертную систему на Prolog для распознавания пород собак, а так же пригодны они для выставок, и нахождение похожих...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
9
Ответ Создать тему
Новые блоги и статьи
сукцессия микоризы: основная теория в виде двух уравнений.
anaschu 11.01.2026
https:/ / rutube. ru/ video/ 7a537f578d808e67a3c6fd818a44a5c4/
WordPad для Windows 11
Jel 10.01.2026
WordPad для Windows 11 — это приложение, которое восстанавливает классический текстовый редактор WordPad в операционной системе Windows 11. После того как Microsoft исключила WordPad из. . .
Classic Notepad for Windows 11
Jel 10.01.2026
Old Classic Notepad for Windows 11 Приложение для Windows 11, позволяющее пользователям вернуть классическую версию текстового редактора «Блокнот» из Windows 10. Программа предоставляет более. . .
Почему дизайн решает?
Neotwalker 09.01.2026
В современном мире, где конкуренция за внимание потребителя достигла пика, дизайн становится мощным инструментом для успеха бренда. Это не просто красивый внешний вид продукта или сайта — это. . .
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/ O1rJuneU_ls https:/ / vkvideo. ru/ video-115721503_456239114
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR ВВЕДЕНИЕ Введу сокращения: аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi ветка по-частям. коммит Create переделка под биомассу. txt вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ * Дана цепь постоянного тока с сопротивлениями и источниками (напряжения, ЭДС и тока). Найти токи и напряжения во всех элементах. Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru