/ / Google Cloud Speech: Wortstartzeit - Audio, Sprache-zu-Text, Google-Sprach-API, Google-Cloud-Sprache

Google Cloud Speech: Wortstartzeit - Audio, Sprache-zu-Text, Google-Sprach-API, Google-Cloud-Sprache

Ich möchte Google Cloud Speech verwendenkonvertierte langformatige Audiodateien und ich muss die Startzeit jeder Phrase in der Audiodatei kennen. Gibt es eine Möglichkeit, dies mit Google Cloud Speech zu tun? Ich arbeite gerade mit der transcribe_async.py. Vielen Dank.

Antworten:

1 für die Antwort № 1

Dies ist bei Google Cloud Speech nicht möglich. Wenn diese Informationen für Sie wichtig sind, müssen Sie möglicherweise andere ASR-Systeme betrachten. Ich kenne diese offline gehosteten ASR-Systeme Kaldi und CMU-Sphinx wird Ihnen diese Informationen geben. Ich weiß nicht, ob oder welche gehosteten ASR-Systeme diese Informationen liefern können.


0 für die Antwort № 2

Sie können (ungefähre) Start- und Endzeiten (vom Anfang der Audiospur) für jedes Wort erhalten, indem Sie die Option enableWordTimeOffsets auf True setzen: https://cloud.google.com/speech/docs/async-time-offsets.

Beachten Sie, dass die Startzeit des ersten Wortes des Transkripts immer 0 ist und dass, soweit ich weiß, jede Wortstartzeit der vorherigen Wortendzeit entspricht (auch wenn es Pausen gibt).