/ / k-means clustering usando spark Mlib - apache-spark, aprendizaje automático, minería de datos, k-means, clasificación de texto

k-means clustering usando spark Mlib - apache-spark, aprendizaje automático, minería de datos, k-means, clasificación de texto

Quiero realizar K significa agrupar en el conjunto de datos como abajo

(OA, mobileNO, Text are Headers of csv)

OA | mobileNO | Text
575756 | 918050173932 | sekhar agregó una foto. Verlo en https://fb.com/l/
RM-444555 | 91879225717 | Dominos Compre 1 pizza y obtenga 1 gratis
VM-OLAMNY | 919160281882 | Rs.10 agregados en el viaje en taxi de OLA

al igual que arriba tengo un gran conjunto de datos, ¿Cómo puedo agrupar los datos y encontrar patrones ocultos en ellos? (Por ejemplo, qué OA está enviando mensajes relacionados con Cab, qué OA está enviando notificaciones fb, etc.)

Tengo que obtener los grupos de OA basados ​​en el texto que están enviando como

grupo 1: cabina relacionada con OA grupo 2: notificaciones fb, etc.

¿K-significa que el agrupamiento solo funciona en datos numéricos?

Respuestas

0 para la respuesta № 1

k-significa solo funciona de forma fiable en variables numéricas continuas.

Hay una razón para eso: en otros datos, la media no es significativo, por lo que los clusters k-means no son significativos.