/ / Sugestão para a escolha de voz para texto apis - android, reconhecimento de voz, fala para texto, fala, google-speech-api

Sugestão para a escolha de voz para texto apis - android, reconhecimento de voz, fala para texto, fala, google-speech-api

Eu sou novo no reconhecimento de fala, android e eutenho um caso de uso em que preciso criar um aplicativo para Android que use comandos (conjunto limitado de comandos, menos de 100) dos usuários e execute alguma lógica. Eu pesquisei um pouco e encontrei o seguinte pode ser feito

  1. Use a API de fala do google cloud
  2. Use o recurso de fala embutido do Android para texto (é diferente da API de voz do google cloud? Se sim como?). Além disso, quais são os prós e contras do uso do modo offline de fala do Android para texto?
  3. Use bibliotecas de reconhecimento de fala de código aberto como Kaldi, CMU Sphinx (parecia que eles precisavam de muito esforço para coletar e treinar os dados)

Alguém por favor pode me sugerir qual das opções acima pode se adequar melhor ao meu caso de uso? Eu tenho um conjunto limitado de comandos e a velocidade é o mais importante para mim.

Estou muito confuso e, portanto, colocando essa questão. Desde já, obrigado.

Respostas:

1 para resposta № 1

Use a API de fala do google cloud

Muito caro desde que você tem que pagar por cada pedido.

Use o recurso de fala embutido do Android para texto (é diferente da API de voz do google cloud? Se sim como?). Além disso, quais são os prós e contras do uso do modo offline de fala do Android para texto?

A API embutida está ok para usar. É diferente da API da nuvem e é gratuito. Não funciona offline de forma transparente para o usuário. O lado ruim é lento e você não pode configurar o vocabulário. Assim, ele decodificará todas as palavras em vez de um conjunto particular de comandos e, muitas vezes, confundirá os comandos necessários com outras palavras no ruído.

Use bibliotecas de reconhecimento de fala de código aberto como Kaldi, CMU Sphinx (parecia que eles precisavam de muito esforço para coletar e treinar os dados)

O desenvolvimento adequado é sempre um esforço.