Я намагаюся генерувати модель мови формату arpa за допомогою таких команд:
text2wngram < weather.txt | grep -v "</s> <s>" > weather.wngram
wngram2idngram -vocab weather.vocab < weather.wngram > weather.idngram
idngram2lm -vocab_type 0 -idngram weather.idngram -vocab weather.vocab -arpa weather.lm
Але друга команда wngram2idngram не працює і видає таку помилку:
text2idngram: Помилка: Потрібно вказати файл idngram.
Я змінюю параметри так, і це працює.
wngram2idngram -vocab weather.vocab -idngram weather.idngram < weather.wngram
Моє запитання, яке з них правильне? Я використовую cmulmtk версії 3.
Відповіді:
1 для відповіді № 1Другий варіант правильний.
У той же час ми рекомендуємо використовувати SRILM.