/ / Ефективне зберігання трійки для веб-програми - python, trie, aho-corasick

Ефективне сховище для веб-додатки - python, triie, aho-corasick

У мене є тріо Ахо Корасика, що я розбираю тілотексту наскрізь. Тепер ця трійка існує як частина мого додатка для колб. Він розгорнутий на Heroku, і в даний час я наївно зберігаю мариновану форму автомата, знімаю її, коли потрібно, і використовую її. Який був би кращий спосіб ефективного зберігання автомата Aho Corasick для веб-додатків, таких як цей?

Відповіді:

2 для відповіді № 1

Доступ до трійки на диску не зовсім тривіальний, тому завантаження його в пам'ять - хороший підхід.

Спробуйте бібліотеку pyahocorasick FWIW. http://pyahocorasick.readthedocs.io/ твій друг. Він підбирає автомат в порядку і використовує компактну схему пам'яті для обмеження використання пам'яті