/ / tf-idf文書の類似性と単純ベイズ分類器との区別 - 機械学習

tf-idf文書の類似性とナイーブなベイズ分類子の区別 - 機械学習

tf-idf文書の類似性と単純ベイズ分類器のどちらを選択するのですか。どのアルゴリズムを使用するのかわからないのですが、どのアルゴリズムがどの目的に適しているかを識別する方法はありますか。

回答:

回答№1は2

あなたはそうしない。

用語頻度逆文書頻度は、数値をフィーチャに割り当てる方法です。データポイントを分類するために使用される方法とは(ほとんど)独立しています。

類似性とは、コサイン類似性と最近傍分類を意味します。

分類をしているとしたら、どちらの方法を選択しても、最高の精度が得られる(または要件を最も満たす)ように思われます。非常に大きなデータセットが存在する場合、データセット内の各文書に対するコサイン類似度を計算することは法外になります。

ランク付けの結果に対してコサイン類似性を意味する場合(Qに似た文書を見つける)、「選択」はありません。それはランキングの仕事です、単純ベイズは分類のためです。

実生活では、両方の方法は特にそうではありません。良い。あなたはそれをダムと単純な方法を投げることによってタスクがどれくらい難しいか簡単であるかもしれないかの初期の考えを得るためにそれらを使用するだけです。 1つの "ダム"メソッドが他のダムメソッドよりもはるかに優れたパフォーマンスを示す場合は、最良のダムメソッドに関連するより高度なモデルを試すことを検討することができます。