Я почав використовувати Google goi api для транскрибування аудіо.
Аудіо, що транскрибується, містить безліч номерів, вимовлених одна за одною.
Наприклад 273 298
Але транскрипція повертається 270-3298
Я здогадуюсь, що він трактує це як якийсь номер телефону.
Що я хочу, це нерозбірливий вихід, наприклад "два сімдесят три два дев'яносто вісім", з якими я можу впоратися і розібратися самостійно.
Чи є налаштування чи підтримка подібних речей?
Дякую
Відповіді:
1 для відповіді № 1Спробуйте передати мовленнєвий контекст із деякими натяками на фразу. Як це використовувати, задокументовано тут: https://cloud.google.com/speech/docs/basics#phrase-hints
Дайте йому прописані номери, які ви хочете розпізнати.
"speech_context": {
"phrases":["zero", "one", "two", ... "nine", "ten", "eleven", ... "twenty", "thirty,..., "ninety"]
}
Це гарантовано не працює, але це може допомогти.
0 для відповіді № 2
Для запису я спробував рішення Бламберта вищеі, на жаль, це не працює, на жаль, я нещодавно опублікував ще одне запитання, побачивши, чи хтось знайшов спосіб перемогти цю поведінку, оскільки це заважає мені реалізувати службу транскрипції, яку я запланував.