Mam dużą uporządkowaną sekwencję symboli, miliony symboli. Muszę znaleźć powtarzające się uporządkowane podsekcje, które:
- Szukane podsekwencje są nieznane, muszę znaleźć podsekwencje, które powtarza się w innym miejscu dużej sekwencji.
- Sekwencje mogą mieć różnice, takie jak obecność pewnej ilości szumu i brak niektórych symboli.
Niezbędny warunek:
- Sekwencje mogą mieć niewielką ilość permutacji symboli sąsiadów.
Alfabet składa się z tysięcy symboli.
Czy możesz polecić dobrze znany i dobrze zbadany algorytm takiego zadania?
Odpowiedzi:
0 dla odpowiedzi № 1Możesz spróbować wielu wzorów aho-corasickdopasowanie i użyj symbolu wieloznacznego do wyszukiwania podciągów. Dla podciągów chcesz także odległość levensteina. Możesz spróbować mojej implementacji w PHP algorytmu aho-corasick z symbolem wieloznacznym at https://phpahocorasick.codeplex.com.