Ajuda na programação, respostas a perguntas / Aprendizado de máquina Análise de cluster? rotular o cluster - aprendizado de máquina, classificação, análise de cluster, mineração de dados

análise de cluster? rotular o cluster - aprendizado de máquina, classificação, análise de cluster, mineração de dados

Estou bastante confuso sobre seguir dois problemas: Eu tenho um conjunto de dados de 15 dimensões que deve ser usado para agrupar quantos tipos de ataques estão contidos no conjunto de dados.

1. agora já agrupei meu conjunto de dados em 5 clusters (5 ataques). Alguém sabe como posso apontar qual cluster é qual ataque? (como rotular os clusters não apenas por "cluster 1, cluster 2 ...")

2 Na classificação supervisionada, temos o conjunto de dados de treinamento e o conjunto de dados de teste, e o teste é realizado com o classificador construído a partir do conjunto de dados de treinamento. Minha pergunta é, pode a mesma abordagem ser usada para clustering. Como construir um modelo com algoritmo de clustering e, em seguida, classificar automaticamente a nova instância em um cluster específico? Isso é possível?

Respostas:

5 para resposta № 1

Como um método não supervisionado deve ser capaz de identificar ataques nomeados?

O nome atribuído por humanos não está nos dados!

Para alguns algoritmos de clustering você pode atribuir novosinstâncias automaticamente, mas em geral você não pode (não sem conhecer o modelo usado pelo clustering). No pior dos casos, uma nova observação seria mesmo p. Ex. fundir dois clusters em um. O que você vai fazer então?

Se você quiser classificação, usar classificação, não agrupando.

O clustering tem uma mentalidade muito diferente. Se você abordar isso do ponto de vista da classificação, você não entenderá realmente. Você usa clustering para encontrar algo desconhecido em dados, classificação para generalizar algo conhecido para novos dados.

Se necessário, você também pode treinar um classificador em seu cluster. Mas não faça isso cegamente. Primeiro, certifique-se de que os clusters são realmente úteis. Muito de mais fácil chegar a um resultado de clustering completamente sem sentido do que com um bom clustering. Treinar um classificador em clusters sem valor não produzirá uma saída significativa.