Форум программистов, компьютерный форум, киберфорум
Python
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
 Аватар для m0nte-cr1st0
1043 / 578 / 242
Регистрация: 15.01.2019
Сообщений: 2,178
Записей в блоге: 1

Не удаётся распознать текст с .wav файла потоком, используя google speech-to-text

09.02.2021, 17:59. Показов 1537. Ответов 0
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Имеется чанки аудиофайла с расширением .wav. Пытаюсь сделать потоковое распознавание. Но в итоге либо вовсе не распознает, либо распознает но совсем некорректно.

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
import wave
from typing import Tuple
 
from google.cloud import speech
from google.cloud.speech import RecognitionConfig, StreamingRecognitionConfig
 
 
# https://www.slanglabs.in/blog/automatic-speech-recognition-in-python-programs
 
 
def read_wav_file(filename) -> Tuple[bytes, int]:
    with wave.open(filename, 'rb') as w:
        rate = w.getframerate()
        frames = w.getnframes()
        buffer = w.readframes(frames)
    return buffer, rate
 
 
def simulate_stream(buffer: bytes, batch_size: int = 4096):
    buffer_len = len(buffer)
    offset = 0
    while offset < buffer_len:
        end_offset = offset + batch_size
        buf = buffer[offset:end_offset]
        yield buf
        offset = end_offset
 
 
def response_stream_processor(responses):
    transcript = ''
    for response in responses:
        if not response.results:
            continue
        result = response.results[0]
        if not result.alternatives:
            continue
        transcript = result.alternatives[0].transcript
    print(transcript)
    return transcript
 
 
def google_streaming_stt() -> str:
    buffer, rate = read_wav_file("chunk0.wav")
    client = speech.SpeechClient()
    config = RecognitionConfig(
        encoding=RecognitionConfig.AudioEncoding["LINEAR16"],
        sample_rate_hertz=rate,
        language_code="en-US",
        model='video'
    )
 
    streaming_config = StreamingRecognitionConfig(
        config=config,
        interim_results=True
    )
 
    audio_generator = simulate_stream(buffer)  # chunk generator
    requests = (
        speech.StreamingRecognizeRequest(audio_content=chunk) for chunk in audio_generator
    )
 
    responses = client.streaming_recognize(
        config=streaming_config, requests=requests
    )
 
    return response_stream_processor(responses)
 
google_streaming_stt()
Добавлено через 5 минут
Однако, если распознать файл по этой ссылке - все распознает верно.
https://cloud.google.com/speech-to-text

Добавлено через 1 минуту
Линк на файл - https://sndup.net/5trk
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
09.02.2021, 17:59
Ответы с готовыми решениями:

Text to speech не озвучивает текст
После нажатия на кнопку внизу экрана выскакивает оповещение, мол началась озвучка текста, но звука нет. override fun...

Как довести до ума Text to speech на Java и Eclipse с google API?
Здравствуйте. Мой вопрос ниже. Сначала короткое введение. Сейчас я учу Java (использую Эклипс) и наткнулся на следующий учебный...

Microsoft.Speech распознать все слова
Возможно ли используя Microsoft.Speech распознать любые слова, а не мною занесенные в словарь слова? Если да, то как? Добавлено...

0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
09.02.2021, 17:59
Помогаю со студенческими работами здесь

Как считать текст из Google таблицы размером 1х1 в переменную, используя Google Docs API?
Есть Google документ, в нём есть таблица с одной ячейкой, то есть размер таблицы &quot;1 на 1&quot;, в этой ячейке какой-то текст. Его мне...

Распознать голос (Microsoft Speech): Не найден распознаватель с требуемым кодом
Привет. Мне нужно, чтобы моя прога умела распознавать то, что я говорю в микрофон. Решил использовать Microsoft Speech. Нашел пример кода...

Пример. Облачный синтезатор речи Google. (Google speech synthesis. Example)
Может сгодится кому. :) В метод передаем фразу, получаем mp3 файлик со звуком. public static void textToSpeech(String text,...

Speech to Text
Ребят! Не силен в qt, но привлекает кроссплатформенностью. Надо написать приложение, распознающее голос (русский!) Кто знает...

Text-to-speech и VB.NET
Раньше написал программу для слепых на VB с использованием DirectSS. Теперь хочу сделать тоже самое но на VB.NET в учебных целях. Обыскал...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
Новые блоги и статьи
Жизнь в неопределённости
kumehtar 23.03.2026
Жизнь — это постоянное существование в неопределённости. Например, даже если у тебя есть список дел, невозможно дойти до точки, где всё окончательно завершено и больше ничего не осталось. В принципе,. . .
Модель здравоСохранения: работники работают быстрее после её введения.
anaschu 23.03.2026
geJalZw1fLo Корпорация до введения программа здравоохранения имела много невыполненных работниками заданий, после введения программы количество заданий выросло. Но на выплатах по больничным это. . .
1С: Контроль уникальности заводского номера
Maks 23.03.2026
Алгоритм контроля уникальности заводского (или серийного) номера на примере документа выдачи шин для спецтехники с табличной частью. Данные берутся из регистра сведений, по которому настроено. . .
Хочу заставить корпорации вкладываться в здоровье сотрудников: делаю мат модель здравосохранения
anaschu 22.03.2026
e7EYtONaj8Y Z4Tv2zpXVVo https:/ / github. com/ shumilovas/ med2. git
1С: Программный отбор элементов справочника по группе
Maks 22.03.2026
Установка программного отбора элементов справочника "Номенклатура" из модуля формы документа. В качестве фильтра для отбора справочника служит группа номенклатуры. Отбор по наименованию группы. . .
Как я обхитрил таблицу Word
Alexander-7 21.03.2026
Когда мигает курсор у внешнего края таблицы, и нам надо перейти на новую строку, а при нажатии Enter создается новый ряд таблицы с ячейками, то мы вместо нервных нажатий Энтеров мы пишем любые буквы. . .
Krabik - рыболовный бот для WoW 3.3.5a
AmbA 21.03.2026
без регистрации и смс. Это не торговля, приложение не содержит рекламы. Выполняет свою непосредственную задачу - автоматизацию рыбалки в WoW - и ничего более. Однако если админы будут против -. . .
1С: Программный отбор элементов справочника по значению перечисления
Maks 21.03.2026
Установка программного отбора элементов справочника "Сотрудники" из модуля формы документа. В качестве фильтра для отбора служит значение перечислений. / / Событие "НачалоВыбора" реквизита на форме. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2026, CyberForum.ru