/ / Come gestire le query di ricerca che hanno spazi nel posto sbagliato mentre si crea un motore di ricerca di un sito di e-commerce? - java, search, nlp, search-engine, tf-idf

Come gestire le query di ricerca che hanno spazi nel posto sbagliato mentre si crea un motore di ricerca di un sito di e-commerce? - java, search, nlp, search-engine, tf-idf

Supponiamo di avere un jeans di entrata nel sito web. L'utente cerca pepejeans. Attualmente sto usando la similarità tf-idf e cosine per restituire i risultati più significativi, ma ho mantenuto l'utilizzo della memoria il più piccolo possibile perché il contenuto è grande. Quindi, cosa posso usare per affrontare questo problema? Una soluzione è mantenere il record con lo spazio e senza spazio di tutti i ngram del contenuto.

Un altro esempio- Se l'utente cercascarpe Nike. Ora nike è un marchio ma nikeshoes non è un marchio. La query di ricerca era nike shoes, quindi sarebbe tornata come brand. Il contenuto qui si riferisce ai nomi dei marchi. Sto cercando di identificare il nome del marchio dalla query

risposte:

0 per risposta № 1

La soluzione tipica è eseguire una riscrittura delle queryprima di eseguire la query. Durante la riscrittura della query è possibile trasformare la query che l'utente ha fornito in una forma che funziona meglio per il proprio sistema di recupero. Ciò può implicare tokenizzazione, arginamento, controllo ortografico e altri tipi di riscritture.

Per una panoramica, guarda questo post del blog https://hughewilliams.com/2012/03/19/query-rewriting-in-search-engines/