/ /確率的潜在意味解析/索引付け - はじめに - nlp、lsa、潜在意味索引付け

確率的潜在意味解析/索引付け - はじめに - nlp、lsa、潜在意味索引付け

しかし、最近、私はこのリンクが、あまりにも多くの計算をせずにLSAの原理を理解するのに非常に役立つことを発見しました。 http://www.puffinwarellc.com/index.php/news-and-articles/articles/33-latent-semantic-analysis-tutorial.html。それは私がさらに構築する良い基盤を形成します。

現在、私は似たものを探しています確率論的潜在意味解析/索引付けの紹介。数学の数が減り、その背後にある原則を説明する例が増えています。あなたがそのような紹介を知っているなら、私に知らせてください。

それは文章間の類似性の尺度を見出すために使用できますか?それは多義性を扱いますか?

同じのためのPythonの実装はありますか?

ありがとうございました。

回答:

回答№1の場合は7

良いことがある Thomas Hofmannによるトーク LSAとProbabilistic Latent Semantic Analysis(PLSA)への接続の両方を説明しています。会話には数学がありますが、PLSAの論文(またはWikipediaのページ)よりもはるかに簡単です。

PLSAを使用していくつかの類似性指標を得ることができます2つのセンテンスは、潜在クラス上の確率分布から引き出された短い文書として見ることができるので、センテンス間では、あなたの類似点は、あなたのトレーニングに大きく依存します。潜在クラスモデルを訓練するために使用するドキュメントには、比較したいドキュメントの種類が反映されている必要があります。同様に、非常に類似した文脈を持つコーパスを用いて訓練することで、文書上のわずかな変化に過度に敏感な潜在クラスが生成される可能性がある。文書と比較して)、私は文章レベルでPLSAから高品質の類似性の結果を得ることはできません。

PLSAは多義性を扱いません。 しかし、多義性に懸念がある場合は、入力テキストに対してWord Sense Disambiguationツールを実行して、各単語に正しい意味でタグを付けることができます。このタグ付きコーパス上でPLSA(またはLDA)を実行すると、結果として得られる文書表現における多義性の影響が取り除かれます。

Sharmilaが指摘したように、潜在的ディリクレ割り当て(LDA)は、文書比較のための最先端技術であると考えられており、トレーニングデータをオーバーフィットする傾向があるPLSAよりも優れています。さらに、LDAをサポートし、LDAで得られる結果が意味を持つかどうかを分析するためのツールがさらにたくさんあります。 (冒険していると感じたら、あなたは読める デイビッド・ミムノ(EMNLP 2011)の2つの論文 あなたがLDAから得る潜在的な話題の質を評価する方法について)