/ / Strumento di indicizzazione delle stringhe per file binari: indicizzazione, file binari, dati binari, analisi forense

Strumento di indicizzazione delle stringhe per file binari - indicizzazione, file binari, dati binari, computer-forense

Molto spesso ho a che fare con file binari molto grandi (da 50 a 500 GB), in diversi formati, che contengono dati fondamentalmente misti, comprese le stringhe.

Ho bisogno di indicizzare le stringhe all'interno del file,creando un database o un indice, così posso fare ricerche veloci (ricerca di base o complesso con espressioni regolari). L'output della ricerca dovrebbe essere ovviamente l'offset della stringa trovata nel file binario.

Qualcuno conosce uno strumento, una struttura o una biblioteca che può aiutarmi in questo compito?

risposte:

0 per risposta № 1

Puoi eseguire "strings -t d" (Linux / OS X) su di essoestrarre le stringhe con il loro offset corrispondente e quindi inserirle in Solr o Elastic. Se vuoi qualcosa di più del semplice ASCII, diventa più complesso.

Autopsia ha il proprio codice di estrazione delle stringhe (per utf-8e UTF-16) e lo mette in Solr (e usa Tika se il formato del file è supportato), ma non registra l'offset da un file binario, quindi potrebbe non soddisfare le tue esigenze.