У мене є тріо Ахо Корасика, що я розбираю тілотексту наскрізь. Тепер ця трійка існує як частина мого додатка для колб. Він розгорнутий на Heroku, і в даний час я наївно зберігаю мариновану форму автомата, знімаю її, коли потрібно, і використовую її. Який був би кращий спосіб ефективного зберігання автомата Aho Corasick для веб-додатків, таких як цей?
Відповіді:
2 для відповіді № 1Доступ до трійки на диску не зовсім тривіальний, тому завантаження його в пам'ять - хороший підхід.
Спробуйте бібліотеку pyahocorasick FWIW. http://pyahocorasick.readthedocs.io/ твій друг. Він підбирає автомат в порядку і використовує компактну схему пам'яті для обмеження використання пам'яті