私は次の2つの問題についてはかなり混乱しています。 私は15次元のデータセットを持っています。このデータセットは、データセットに含まれる攻撃の種類をクラスター化するために使用する必要があります。
1.私はすでに5つのクラスタ(5つの攻撃)に私のデータセットをクラスタ化しました。誰がどのクラスタがどの攻撃を指しているかを知っている人はいますか? (単にクラスタ1、クラスタ2 ...ではなくクラスタにラベルを付ける方法)
2。 教師付き分類では、トレーニングデータセットとテストデータセットがあり、テストはトレーニングデータセットから作成された分類子で実行されます。私の質問は、同じアプローチをクラスタリングに使うことができるということです。クラスタリングアルゴリズムを使用してモデルを構築し、新しいインスタンスを特定のクラスタに自動的に分類するこれは達成可能ですか?
回答:
回答№1は5管理されていない方法で名前付き攻撃を識別できるようにするにはどうすればよいですか?
人間が割り当てた名前はデータにはありません!
いくつかのクラスタリングアルゴリズムでは、新しい自動的にインスタンス化されますが、一般的には(クラスタリングで使用されているモデルを知らないと)できません。最悪の場合、新しい観察は、例えば、 マージ 2つのクラスタを1つにまとめるあなたは何をするつもりですか?
お望みならば 分類、 つかいます 分類、クラスタリングではありません。
クラスタリングにはまったく異なる考え方があります。あなたが分類の観点からそれに近づくなら、あなたはそれを本当に理解しません。あなたは何かを見つけるためにクラスタリングを使用します 道の データ、何かを一般化するための分類 既知の 新しいデータへ。
必要に応じて、クラスタ上の分類子を訓練することもできます。しかし、盲目的にこれをやってはいけません。最初にクラスタが実際に何か役に立つものであることを確認してください。 たくさん 良いクラスタリングよりも完全に無意味なクラスタリング結果を思い付くことは容易です。価値のないクラスターに関する分類子を訓練することは、意味のある出力を生むことにはなりませんでした。