Ajuda na programação, respostas a perguntas / Corda / Algoritmo para encontrar a primeira ocorrência de cada um dos padrões fornecidos em cada um dos textos de entrada fornecidos - string, algoritmo, correspondência de padrões, substring, string-matching

Algoritmo para encontrar a primeira ocorrência de cada um dos padrões fornecidos em cada um dos textos de entrada fornecidos - string, algoritmo, correspondência de padrões, substring, string-matching

Eu estou procurando algoritmo para o qual a implementação está prontamente disponível em C. Minha entrada consiste em muitos padrões e muitos textos. Eu quero encontrar a primeira ocorrência de cada padrão em cada um dos textos.

Eu estou explorando algoritmos de correspondência de strings aqui: http://igm.univ-mlv.fr/~lecroq/string/

Mas não tenho certeza da melhor solução possível. Alguém sabe o melhor algoritmo de correspondência para este caso de uso?

Meus padrões estarão na faixa de 10-15 caracteres e textos estarão na faixa de 30-40 caracteres.

Também algumas das respostas do stackoverflow mencionamque o Boyes-Moore & KMP não necessariamente tem um desempenho melhor que o strstr () por causa das arquiteturas modernas de HW. Isso será verdade para meu caso de uso peculiar também?

Aqui está outra lista de algoritmos. http://www.dmi.unict.it/~faro/smart/algorithms.php

Respostas:

0 para resposta № 1

Use modificação de o algoritmo de Rabin-Karp:

Calcule o tamanho mínimo do padrão para seus padrões (10 no seu exemplo)
Para cada padrão, crie "snake-hash" com tamanho de prefixo = 10. Crie hashtable para seus padrões.
Para cada texto, "move snake length = 10" e recompute o hash. Se hash corresponder a um prefixo - compare a string completa.

Então, esse algoritmo é ~ O (n + m); N = comprimento dos textos; M = comprimento patterls.

Para hashing, eu recomendo usar o par "cyclic_shift + XOR".

Perguntas relacionadas

Correspondência de strings em janela deslizante - string, algoritmo, correspondência de padrões, trie

Design de algoritmo de correspondência de cadeia de caracteres - cadeia de caracteres, algoritmo, correspondência de padrões

String Padrão desconhecido Correspondência - string, reconhecimento de padrão

Correspondência de padrões de seqüência de caracteres SML / NJ - seqüência de caracteres, correspondência de padrões, sml, smlnj

Função de falha do KMP - string, algoritmo, função, desempenho, correspondência de padrões

Quando usar os algoritmos Rabin-Karp ou KMP? - corda, algoritmo, correspondência, knuth-morris-pratt, rabin-karp

Casos de Teste para remover todas as ocorrências na substring - string, algoritmo, correspondência de strings

Como você detecta uma correspondência de padrões ao comparar duas strings exclusivas? - string, algoritmo, correspondência de padrões, autômato, rabin-karp

Ideias de regexp ou algoritmo para encontrar subconjuntos em dados para determinados conjuntos de entrada - regex, string, algoritmo, conjunto, correspondência de padrões

correspondência de strings longas (na maioria das vezes semelhantes) com strings longas - regex, algoritmo, correspondência de strings

StringUtils.contains do algoritmo de pesquisa de strings Apache e Boyer – Moore - java, string, algoritmo, boyer-moore

Contagem de substrings dentro de string - java, string

Usando Aho-Corasick em um DAWG ao invés de um Trie - java, algoritmo, string-matching, aho-corasick, dawg

Como procurar um padrão dentro de uma matriz de String / Char? [fechado] - java, matrizes

Reconhecendo um padrão usando OpenCV - c ++, c, opencv, correspondência de padrões

Algoritmo para correspondência de padrões - c ++, c, algoritmo, estruturas de dados

Algoritmo de correspondência de dados em tempo real - algoritmo, tempo real, correspondência

Trabalhos correspondentes usando algoritmo fuzzy c-means e artificial colony bee [fechado] - algoritmo, análise de cluster, correspondência, k-means, fuzzy-c-means

Como entender o processo de construção do DFA em algoritmos KMP - algoritmo, substring, autômato

Dificuldade de saturação da tabela KMP - algoritmo, correspondência de padrões, substring, programação dinâmica