0 / 0 / 0
Регистрация: 10.01.2013
Сообщений: 28
|
|
1 | |
Голосовое управление и распознавание\сравнение речи13.04.2013, 12:03. Показов 22091. Ответов 29
Метки нет (Все метки)
Доброго времени суток, друзья!
В виду того, что скоро предстоит выбирать тему курсовой работы, я решил немного активизироваться и вспомнил, что вот уже пару лет во мне тлеет мечта разработать программу, которая бы могла управлять системой при помощи человеческого голоса. Ну, это совсем глобально. Цель сейчас - написать программу, которая распознавала бы 10-15 голосовых команд (обязательное условие - язык C++)Сроку - год) В дальнейшем планирую не бросать и развивать проект, но пока оцениваю свои возможности более менее трезво и понимаю, что за год смогу создать только маленькую "распознавалку"=) А теперь внимание, вопрос-просьба: Помогите, кто чем может - советом, указаниями и т.д. Хотя бы посоветуйте, в какую сторону начинать копать. Допустим, с захватом голоса проблем нет, какие необходимы дальнейшие преобразования? Какие существуют алгоритмы сравнения (я знаю, что это самая сложная часть) Да, я читал google, да я знаю (вики) о нейронных сетях и вообще немного времени посвятил изучению данной проблемы. Но это все очень разбросанно и поверхностно) Может, кто-то посоветует хорошие книжки?Или ваш собственный опыт?
0
|
13.04.2013, 12:03 | |
Ответы с готовыми решениями:
29
распознавание речи Голосовое управление программой голосовое управление. диплом Нейронные сети и распознавание речи C++ и Java |
0 / 0 / 0
Регистрация: 10.01.2013
Сообщений: 28
|
|
13.04.2013, 23:05 [ТС] | 21 |
Nagdiel, вы правы=)
Взять только наши окончания и падежи) По поводу моих целей - я хочу взять комплексно - выучить C++ по приемлимого уровня и разобраться в теме распознавания речи и образов. И если по образам достаточно много информации, то вот по речи - нет) В будущем планирую создать приложение, которое объединит голосовое управление со слежением с камеры (жесты+голос) Почему именно C++? Одно из требований курсовой - написание на C++, вот и все=) Да и вообще мне он как-то ближе. Kins, Немного не так=) Распознается не отдельный звук,а все слово целиком.Поэтому самый простой способ - сравнение слова, каторые ты же и записал (дикторозависимость) но даже сам человек одно и то же слово может говорить разными интонициями, скоростью и эмоциями. Вершина - разделение на дифтонги и трифтонги. Но представьте, какая нужна вычислительная мощь! Так что не просто так это одна из самых сложных задач) Добавлено через 2 минуты Nagdiel, И еще. Я не говорил, что делаю это с наскоку. У меня есть год и я изначально просил, что бы посоветовали литературу для изучения. Я прекрасно понимаю, что нужно перерыть не одну книжку для того, чтобы осознать теорию) Так что пусть у вас не складывается ощущение, что хочу за месяц сдалать супер-распознавалку с функцией тостера=)
0
|
59 / 58 / 7
Регистрация: 03.02.2013
Сообщений: 167
|
|
13.04.2013, 23:09 | 22 |
Дак вот оно- "слово" состоит из последовательности звуков, которые записываются при распозновании, тоесть присваиваются команде, независимо на каком языке. Если только исключить процесс распознования, тоесть записи последовательности звуков, то можно судить о том, что именно, как вы и говорите- ваш голос сравнивается с клеше, записанным разрабами. В противном случае клеше вы создаете сами, своей последовательностью звуков.
Это мое мнение. Оно возможно ошибочно, но мне представляется весь процесс именно так.
1
|
0 / 0 / 0
Регистрация: 10.01.2013
Сообщений: 28
|
|
13.04.2013, 23:16 [ТС] | 23 |
Kins, Увы и ах - процесс не такой=)
Если бы все было именно так - это рай) Но приступая к реализации сразу можно столкнуться с жестокой реальностью - интонация, акцент, качество записи, шум и прочее. Нельзя просто сравнить две синусоиды. Они никогда не будут одинаковы. Они будут схожи. А для разных людей они просто будут иметь некоторые схожие признаки (закономерности) Вот если я все понял верно, то происходит все именно так)
0
|
13.04.2013, 23:27 | 24 |
1
|
0 / 0 / 0
Регистрация: 10.01.2013
Сообщений: 28
|
|
13.04.2013, 23:33 [ТС] | 25 |
raxp, Второй раз выручаете=)
Спасибо, действительно литературы много, надеюсь, смогу выбрать необходимое=)
0
|
117 / 116 / 8
Регистрация: 23.12.2012
Сообщений: 195
|
|
13.04.2013, 23:45 | 26 |
Kins, в этом случае слово распознается целиком. Это означает, что отсутсвуют этапы выделения отдельных фонем, их распознавания и синтеза на этой основе того слова, которое было сказано. Здесь это вобщем-то и ни к чему, так как не нужно извлекать смысловую информацию.
Vlad Pisatel, Отнюдь не складывается. Вы спросили, стоит ли начинать, я изложил свое субъективное мнение. Самое трудное здесь, на мой взгляд, выбрать правильный подход к решению задачи, который позволит получить желаемый результат. На самом деле подходов к распознаванию речи огромное множество: спектральный и кепстральный анализ, вейвлеты, скрытые марковские модели, авторегрессионные модели, нейроные сети и т.п. Думаю книги позволят сформировать необходимые базовые знания, ну а конкретно по проблеме распознавания речи лучше почитать научные статьи. Начать лучше с обзоров (review, state of art of...), помимо краткого описания и сравнения тех или иных методов в них приводят ссылки на оригинальные работы, в которых эти методы изложены. Например: http://arxiv.org/pdf/1001.2267.pdf http://www.ijcaonline.org/volu... 871976.pdf http://wcsit.org/pub/2012/vol.... oaches.pdf
1
|
0 / 0 / 0
Регистрация: 10.01.2013
Сообщений: 28
|
|
14.04.2013, 16:15 [ТС] | 27 |
Nagdiel, В том-то и дело, я хотел найти и вообще собрать всю информацию по поводу способов реализации данной задачи.
Спасибо большое за ссылки!
0
|
7 / 7 / 0
Регистрация: 21.04.2013
Сообщений: 44
|
|||||||
13.07.2013, 00:13 | 28 | ||||||
Вот программа "Magic Gooddy 98" в которой реализовано "Голосовое управление и распознавание\сравнение речи".
0
|
18 / 17 / 0
Регистрация: 29.09.2010
Сообщений: 156
|
|
13.07.2013, 01:00 | 29 |
Юкио Сато - Обработка сигналов. Первое знакомство
почитай! там для детей написано, но если осилишь, то и сможешь решишть нужно это тебе или нет! там читать на недельку с нуля начиная! не советую начинать с других книг без математической базы хотябы курса 2-3.
0
|
177 / 163 / 21
Регистрация: 12.02.2013
Сообщений: 410
|
|
13.07.2013, 01:12 | 30 |
Прошу прощения за целых 3 смайлика))) Утроил, чтобы усилить их смысловую нагрузку)
0
|
13.07.2013, 01:12 | |
13.07.2013, 01:12 | |
Помогаю со студенческими работами здесь
30
Голосовое управление Распознавание речи(+ команд) Голосовое управление. Активация записи Голосовое управление операционной системой Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |