Как использовать распознавание речи Google на YouTube без загрузки видео на YouTube?

У меня есть много лекций видео контента, который я хотел бы иметь субтитры. YouTube автоматически генерирует субтитры для видео при определенных условиях (эти условия все еще остаются для меня загадкой).

Я хотел бы иметь возможность использовать эту технологию распознавания речи за пределами YouTube. Я не хочу загружать каждое видео, чтобы получить транскрипт (слишком много времени), плюс, я не думаю, что YouTube сделает это для видео, которые длиннее около 30 минут (большинство из них), кроме того, я не думаю, что он будет делать это для непубличных видеороликов (что является проблемой, потому что это премиальный контент, который предназначен для продажи).

идеальный сценарий: есть программа, которую я могу запустить с моего рабочего стола, чтобы получить стенограмму из этих видео, и она имеет такое же или лучшее качество, чем у YouTube, и имеет временные коды, подобные SRT или XML, который генерирует YouTube [как получить YouTube субтитры].

приемлемый сценарий: есть некоторые трюки, которые я могу сделать, чтобы заставить YouTube транскрибировать видео, будь то частное или публичное, и, несмотря на длину.

выполнимый сценарий: есть библиотека или что-то, что я могу использовать для кодирования моей собственной программы. Я хорошо с C# и хорошо с C++ (но я предпочитаю на C#).

2
задан Community
24.12.2022 17:30 Количество просмотров материала 2845
Распечатать страницу

3 ответа

Google реализовал Web Speech API (оба для распознавания речи и синтеза) в Chrome, который вы можете использовать, если вы разработчик. Это то, что YouTube использует для создания субтитров на некоторых видео. Возможно, вы найдете код для взаимодействия с ним.

поток данных, вероятно, будет:

видеофайл => извлечь и конвертировать аудио = > отправить его в Google API => получить текст => записать в сто.

EDIT: там похоже, это не официальная страница API, кроме спецификации W3C. Так вот еще ссылки:

эти примеры об использовании API изнутри Chrome, но вы можете напрямую запросить двигатель распознавания речи Google онлайн. Например, Jasper, личный помощник распознавания речи для Raspberrry Pi, позволяет выбрать Google в качестве распознавания речи.

10
отвечен foucdeg 2022-12-26 01:18

есть инструмент под названием "autosub "( см. agermanidis / autosub на github), который делает именно это, хотя он использует старый Google speech API. Инструмент использует ffmpeg для удаления аудио в FLAC файлы, а затем отправляет FLAC файлы в Google для транскрипции. Он создает файл SRT или VTT.

точность низкая отчасти из-за более старого API Google. Есть более свежий API-интерфейс ("облако речи API-интерфейс REST" на https://cloud.google.com/speech/docs/apis ). Этот API довольно прост, и в какой-то момент я собирался форк autosub, чтобы использовать это.

альтернативой является загрузка на YouTube и загрузка файла VTT после завершения субтитров. Сложность в том, что YouTube создает очень мелкозернистые подписи (например, пару слов), а не, например, предложение. Это затрудняет проверку подписей при сканировании вручную.

1
отвечен Dirk Grunwald 2022-12-26 03:35

самый простой способ-это: перейдите в Google docs, откройте новый текстовый документ и выберите из инструментов "голосовой ввод", затем воспроизведите ленту. Утвердительный ответ. Это так просто! (и поддерживает несколько языков)

в противном случае вы можете использовать локальную веб-страницу с HTML5, как это: https://www.labnol.org/software/add-speech-recognition-to-website/19989/

1
отвечен Zibri 2022-12-26 05:52

Постоянная ссылка на данную страницу: [ Скопировать ссылку | Сгенерировать QR-код ]

Ваш ответ

Опубликуйте как Гость или авторизуйтесь

Имя
Вверх