/ /データ/クラスタリングにおける共通グループの発見 - 機械学習、クラスタ分析

データ/クラスタリングにおける共通グループの発見 - 機械学習、クラスタ分析

データのグループ化

私は、それらが典型的にどのように一緒に現れるかに基づいてクラスタに分割したいアイテムのグループを持っています。たとえば、次のデータがあるとします。

{a:1, b:1, c:0, d:0}
{a:1, b:1, c:0, d:0}
{a:1, b:1, c:1, d:0}
{a:0, b:0, c:1, d:1}

私たちはaとbを一緒にグループ化することができました。常に同じ値を持ちます。 CとDはそれぞれ独自のクラスターに属しているので、このデータを100%正確に表すことができる3つのクラスターで終わります。

さらに、私は精度を犠牲にしてサブグループの数を減らす。たとえば、上記のデータセットでは、AとBを精度の低下がないクラスタにグループ化し、CとDを精度のわずかな損失でグループ化できます。

基本的には、データを特定の数の最適なクラスタにグループ化し、そうすることで精度の低下を計算することができます。

最初の思考

私は数年前に機械学習でクラスを受講していましたので、危険であることは十分に分かっていますが、どこから始めたらいいか分かりません。 クラスタリングのいくつかの形式混合モデルや階層的クラスタリングなどの正しい方向が正しいと思われますか?

回答:

回答№1は1

あなたが探しているものはしばしば呼ばれます アイテムセットマイニング , 関連ルール学習、または 親和性分析.

(悪い名前の) Aprioriアルゴリズム そのような分析のためのより早くかつ最も一般的に使用されるアルゴリズムの1つであり、サブグループの数を減らすために「精度を犠牲にする」方法を含む。

あなたは適切な語彙を持っているので、あなたはAPrioriは "古典的な"アルゴリズム/ソリューションであるため、多くのチュートリアルや実装を見つけることができるはずです。