Ayuda en la programación, respuestas a preguntas / Clasificación / ¿Método sugerido de selección / extracción de características no supervisadas para la clasificación de 2 clases? - clasificación, extracción de características, selección de características

Método sugerido de selección / extracción de funciones no supervisadas para la clasificación de 2 clases - clasificación, extracción de características, selección de características

Tengo un conjunto de características F, por ejemplo, espacio de color de laboratorio, entropía. Al concatenar todas las entidades juntas, obtengo un vector de características de dimensión d (entre 12 y 50, según las características seleccionadas).

Normalmente obtengo entre 1000 y 5000 muestras nuevas,denotado x. Luego se entrena un modelo de mezcla gaussiana con los vectores, pero no sé de qué clase son las características. Lo que sí sé, sin embargo, es que solo hay 2 clases. Según la predicción de GMM, tengo una probabilidad de ese vector de características Perteneciente a clase 1 o 2.

Mi pregunta ahora es: ¿Cómo obtengo el mejor subconjunto de funciones, por ejemplo solo entropía y rgb normalizado, que me dará la mejor precisión de clasificación? Supongo que esto se logra, si se aumenta la separabilidad de la clase, debido a la selección del subconjunto de características.

Tal vez pueda utilizar el discriminante lineal de Fisher¿análisis? Como ya tengo las matrices media y covarianza obtenidas del GMM. Pero, ¿no tendría que calcular la puntuación para cada combinación de características?

¿Sería bueno obtener ayuda si este es un enfoque poco gratificante y estoy en el camino equivocado y / o alguna otra sugerencia?

Respuestas

0 para la respuesta № 1

Una forma de encontrar características "informativas" es usar las características que maximicen la probabilidad de registro. Podrías hacer esto con validación cruzada.

https://www.cs.cmu.edu/~kdeng/thesis/feature.pdf

Otra idea podría ser utilizar otro algoritmo no supervisado que selecciona automáticamente características como un bosque de agrupamiento

http://research.microsoft.com/pubs/155552/decisionForests_MSR_TR_2011_114.pdf

En ese caso, el algoritmo de agrupamiento dividirá automáticamente los datos en función de la ganancia de información.

Fisher LDA no seleccionará características sino proyectarásus datos originales en un subespacio dimensional inferior. Si estás buscando en el método subespacio Otro enfoque interesante podría ser el agrupamiento espectral, que también ocurre. en un subespacio o en redes neuronales no supervisadas como el codificador automático.

Espero que ayude