Hilfe bei der Programmierung, Antworten auf Fragen / Audio / Google Cloud Speech: Wortstartzeit - Audio, Sprache-zu-Text, Google-Sprach-API, Google-Cloud-Sprache

Google Cloud Speech: Wortstartzeit - Audio, Sprache-zu-Text, Google-Sprach-API, Google-Cloud-Sprache

Ich möchte Google Cloud Speech verwendenkonvertierte langformatige Audiodateien und ich muss die Startzeit jeder Phrase in der Audiodatei kennen. Gibt es eine Möglichkeit, dies mit Google Cloud Speech zu tun? Ich arbeite gerade mit der transcribe_async.py. Vielen Dank.

Antworten:

1 für die Antwort № 1

Dies ist bei Google Cloud Speech nicht möglich. Wenn diese Informationen für Sie wichtig sind, müssen Sie möglicherweise andere ASR-Systeme betrachten. Ich kenne diese offline gehosteten ASR-Systeme Kaldi und CMU-Sphinx wird Ihnen diese Informationen geben. Ich weiß nicht, ob oder welche gehosteten ASR-Systeme diese Informationen liefern können.

0 für die Antwort № 2

Sie können (ungefähre) Start- und Endzeiten (vom Anfang der Audiospur) für jedes Wort erhalten, indem Sie die Option enableWordTimeOffsets auf True setzen: https://cloud.google.com/speech/docs/async-time-offsets.

Beachten Sie, dass die Startzeit des ersten Wortes des Transkripts immer 0 ist und dass, soweit ich weiß, jede Wortstartzeit der vorherigen Wortendzeit entspricht (auch wenn es Pausen gibt).

Verwandte Fragen

Vb-Skript für Sprache zu Text (Spracherkennung)? - VBScript

Google-Speech-Api Transkribieren von gesprochenen Zahlen falsch - Spracherkennung, Google-Speech-API

Speichern Sie das Google Cloud Speech-API-Vorgangs- (Job-) Objekt, um später Ergebnisse abzurufen - ruby, google-cloud-rede

Gewusst wie: Konvertieren von Sprache in Text mit Google Shell - Python, Emacs, Google-Cloud-Plattform

Sprachcode Erkennung der gesprochenen Sprache in Google Speech API - Java, Android, Google-Cloud-Plattform, Google-Übersetzer, Google-Speech-API

Modul kann nicht manuell geladen werden in / node_modules / directory - javascript, node.js, npm, node-webkit, google-rede-api

Ist es möglich und ratsam, Google Cloud-Sprach-APIs direkt über Browser, einschließlich Safari, aufzurufen? - Javascript, Safari, Google-Cloud-Plattform, Mobile-Safari, Google-Sprach-API

Google Speech APi konvertiert keinen vollständigen Audiotext - google-rede-api

Google Text to Speech Cloud-Dienst JavaScript - Google-Cloud-Plattform, Google-Text-to-Speech

So deaktivieren Sie die automatische Korrektur für die Google Cloud Speech to Text-API: Google-Cloud-Plattform, Sprache-zu-Text, Google-Sprach-API, Google-Cloud-Sprache

Google Cloud Speech API longrunningrecognize gibt nur den Namen google-cloud-platform zurück

Wie man Speech API höhere Quote aktivieren - Google-App-Engine

Google Cloud-Sprache erkennt "INVALID_ARGUMENT" - flac, Google-Cloud-Sprache

Facebook Messenger Bot - Rede zu Text - Facebook-Graph-API, Rede-zu-Text, Facebook-Messenger, Facebook-Messenger-Bot, Google-Speech-API

Spracherkennung mit HMM oder MFCC - c #, c ++, Spracherkennung, mfcc

Wie kann ich die Google Cloud-Sprach-API von Android verwenden? - Android, Spracherkennung, Sprache-zu-Text, Google-Sprach-API

Wie verarbeitet man Google Spracherkennung im Hintergrund? (App ist nicht aktiv) - Android, Service, Sprache zu Text

Was ist der Unterschied zwischen Chrome TTS, Google TTS, Cloud Speech API und Android TTS? - Android, Google-Chrome-Erweiterung, Text-zu-Sprache, Google-Text-zu-Sprache, Google-Cloud-Rede

Vorschlag für die Wahl von Sprache zu Text Apis - Android, Spracherkennung, Sprache zu Text, Sprache, Google-Speech-API

Spracherkennungsdienst in Android - Android, Spracherkennung, Sprache zu Text