/ / Analyse sémantique probabiliste latente / Indexation - Introduction - nlp, lsa, indexation sémantique latente

Analyse sémantique probabiliste latente / Indexation - Introduction - nlp, lsa, indexation sémantique latente

Mais récemment, j'ai trouvé ce lien très utile pour comprendre les principes de LSA sans trop de calculs. http://www.puffinwarellc.com/index.php/news-and-articles/articles/33-latent-semantic-analysis-tutorial.html. C'est une bonne base sur laquelle je peux construire davantage.

actuellement, je "cherche un semblableintroduction à l'analyse / indexation sémantique probabiliste latente. Moins de maths et plus d'exemples expliquant les principes sous-jacents. Si vous connaissez une telle introduction, s'il vous plaît faites le moi savoir.

Peut-il être utilisé pour trouver la mesure de similarité entre les phrases? Est-ce qu'il gère la polysémie?

Existe-t-il une implémentation python pour la même chose?

Je vous remercie.

Réponses:

7 pour la réponse № 1

Il y a un bon conférence de Thomas Hofmann cela explique à la fois le LSA et ses liens avec l'analyse sémantique probabiliste latente (PLSA). La conversation contient des notions de calcul, mais est beaucoup plus facile à suivre que le document PLSA (ou même sa page Wikipedia).

PLSA peut être utilisé pour obtenir une mesure de similaritéentre les phrases, car deux phrases peuvent être considérées comme de courts documents tirés d'une distribution de probabilité sur des classes latentes. Votre similarité dépendra fortement de votre ensemble de formation cependant. Les documents que vous utilisez pour former le modèle de classe latente doivent refléter les types de documents que vous souhaitez comparer. Générer un modèle PLSA avec deux phrases ne créera pas de classes latentes significatives. De même, une formation avec un corpus de contextes très similaires peut créer des classes latentes qui sont trop sensibles aux légers changements sur les documents. par rapport aux documents), je ne crois pas que vous obtiendrez des résultats de similarité de haute qualité de la part de PLSA au niveau de la phrase.

PLSA ne gère pas la polysémie. Cependant, si vous êtes préoccupé par la polysémie, vous pouvez essayer d'exécuter un outil de désambiguïsation de Word Sense sur votre texte d'entrée pour baliser chaque mot avec son sens correct. L'exécution de PLSA (ou LDA) sur ce corpus marqué supprimera les effets de polysémie dans les représentations de document résultantes.

Comme le note Sharmila, l’attribution de Dirichlet en latence(LDA) est considéré comme l’état de la technique en matière de comparaison de documents et est supérieur au PLSA, qui a tendance à sur-adapter les données de formation. En outre, il existe de nombreux autres outils pour aider LDA et analyser si les résultats obtenus avec LDA sont significatifs. (Si vous vous sentez aventureux, vous pouvez lire Les deux articles de David Mimno du EMNLP 2011 sur la manière d’évaluer la qualité des sujets latents fournis par LDA.)