Транскрипция 55-минутного видео через Whisper: WhisperDesktop облажался, спас Google Colab[
Запись от anaschu размещена 01.06.2026 в 17:09
Показов 2509
Комментарии 0
Метки whisper
Понадобилось получить текст из свежезагруженного видео на YouTube. Казалось бы, задача на пять минут. Заняла полтора часа. Делюсь опытом — может кому пригодится последовательность решений.КонтекстПровели рабочую встречу, записали видео, загрузили на YouTube. Нужно было извлечь из записи планы и идеи в виде текста. Первое что приходит в голову — встроенный транскрипт YouTube. [IMG]https://i.***********/15Pc3Y7z/sc1-youtube-no-transcript.jpg[/IMG] YouTube, три точки под видео — пункта «Открыть транскрипцию» нет. Видео загружено несколько часов назад, автоматические субтитры ещё не сгенерированы. Субтитров нет. Видео свежее — YouTube обрабатывает аудио асинхронно, иногда ждать нужно часами, иногда сутками. Ждать не вариант. Попытка 1: WhisperDesktopСкачал WhisperDesktop (GUI для whisper.cpp) и модель ggml-medium.bin (~1.5 ГБ) с HuggingFace. Запустил, указал видеофайл, нажал старт. Вместо транскрипции получил вот это: [IMG]https://i.***********/dtvmVSN7/sc2-whisper-desktop-error.jpg[/IMG] Whisper Desktop Debug Console — бесконечный поток «unFullImpl: failed to generate timestamp token - skipping one second».
Лечится: в настройках WhisperDesktop отключить GPU (переключиться на CPU). Минус — на CPU 55-минутное видео будет обрабатываться несколько часов. Решил искать более быстрый вариант. Попытка 2: Google ColabColab даёт бесплатный GPU в браузере без установки чего-либо на машину. Создал новый notebook, три ячейки. Ячейка 1 — зависимости:
Установка openai-whisper в Colab. Видно что triton качается отдельно, wheel собирается из исходников. Занимает ~3 минуты. Ячейка 2 — загрузка файла:
Файл «встреча по медицине.mp4» (85 МБ) загружен на сервер Colab — 100% done. Загрузка ~5 минут. Нюанс: если сессия Colab прерывалась (вышла с предупреждением «Upload widget is only available when the cell has been executed in the current browser session»), достаточно просто перезапустить вторую ячейку. Файл всё равно нужно загружать заново — Colab не хранит загруженные файлы между сессиями. Ячейка 3 — транскрипция:
Процесс: час ожиданияColab сразу предупреждает:
[IMG]https://i.***********/bN8HwFVb/sc5-colab-running.jpg[/IMG] Ячейка запущена: модель medium (1.42 ГБ) загружена, транскрипция пошла. Внизу таймер: 4 минуты 31 секунда — это только начало. Оставляем вкладку открытой. Через 38 минут: [IMG]https://i.***********/zX5SGP2w/sc6-colab-waiting.jpg[/IMG] Всё ещё работает. Таймер показывает 22:55 (это время выполнения ячейки). Параллельно Colab выдаёт диалог про несохранённые изменения в notebook — нажимаем «Отмена», это никак не влияет на транскрипцию. Ещё через ~20 минут — готово: [IMG]https://i.***********/VL1BkHZB/sc7-colab-done.jpg[/IMG] В правом верхнем углу — галочка ✓. Ячейка выполнена. Браузер автоматически предложил скачать transcript.txt. Итоговое время: около часа на 55-минутное видео (примерно 1:1 на CPU). На GPU было бы ~15–20 минут. Качество результатаМодель medium на русском языке работает хорошо. Типичные проблемы которые встретились:
Для извлечения смысла и структурирования идей — вполне достаточно. Для дословного протокола — нужна ручная правка. Итог: что использовать когда
Модели по соотношению скорость/качество для русского:
Если кто делал это через что-то другое (например, локальный faster-whisper или через API) — пишите как по скорости и качеству, интересно сравнить. | |||||||||||||||||||||||||
Метки whisper
Размещено в Без категории
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
Всего комментариев 0
Комментарии


