Ayuda en la programación, respuestas a preguntas / Chispa de apache / k-means clustering usando spark Mlib - apache-spark, aprendizaje automático, minería de datos, k-means, clasificación de texto

k-means clustering usando spark Mlib - apache-spark, aprendizaje automático, minería de datos, k-means, clasificación de texto

Quiero realizar K significa agrupar en el conjunto de datos como abajo

(OA, mobileNO, Text are Headers of csv)

OA | mobileNO | Text
575756 | 918050173932 | sekhar agregó una foto. Verlo en https://fb.com/l/
RM-444555 | 91879225717 | Dominos Compre 1 pizza y obtenga 1 gratis
VM-OLAMNY | 919160281882 | Rs.10 agregados en el viaje en taxi de OLA

al igual que arriba tengo un gran conjunto de datos, ¿Cómo puedo agrupar los datos y encontrar patrones ocultos en ellos? (Por ejemplo, qué OA está enviando mensajes relacionados con Cab, qué OA está enviando notificaciones fb, etc.)

Tengo que obtener los grupos de OA basados en el texto que están enviando como

grupo 1: cabina relacionada con OA grupo 2: notificaciones fb, etc.

¿K-significa que el agrupamiento solo funciona en datos numéricos?

Respuestas

0 para la respuesta № 1

k-significa solo funciona de forma fiable en variables numéricas continuas.

Hay una razón para eso: en otros datos, la media no es significativo, por lo que los clusters k-means no son significativos.

preguntas relacionadas

Intellisense en Intellij con bibliotecas de chispas: scala, apache-spark, intellij-idea

Spark estructurado streaming 2.2 y k-means - scala, apache-spark, k-means, apache-spark-mllib

entendimiento de la dependencia de la chispa maven - maven, apache-spark

¿Cómo podemos comparar el rendimiento del algoritmo de los árboles de decisión en términos de precisión de scikit-learn y de Spark ML? - Aprendizaje automático, scikit-learn, clasificación, árbol de decisiones, apache-spark-ml

análisis del sentimiento y agrupación eficiente del texto en bruto con contexto mínimo - machine-learning, apache-spark, nlp

¿análisis de conglomerados? etiquetar el clúster: aprendizaje automático, clasificación, análisis de clúster, extracción de datos

Cómo conectar Cassandra con Spark usando Java. - java, cassandra, apache-spark

Nuevo en Spark y Spark SQL con Java - java, apache-spark, apache-spark-sql, migración de datos, bigdata

¿Cómo volver a entrenar modelos solo en lotes nuevos (sin tomar el conjunto de datos de entrenamiento anterior) en Spark Streaming? - apache-spark, pyspark, spark-streaming, apache-spark-mllib

apache spark bluemix imposible - apache-spark, ibm-cloud

Apache Spark no ve todo el RAM de mis máquinas: apache-spark, google-compute-engine, apache-spark-mllib

¿Cómo matar un trabajo de chispa si se conoce la id de la aplicación? - apache-spark, datastax-enterprise

¿Acceder a la UI web de Spark desde una computadora remota (casa)? - apache-chispa

Cómo configurar spark.driver.memory para Spark / Zeppelin en EMR - apache-spark, emr, amazon-emr, apache-zeppelin

Integración de Arbitrary Java Machine Learning con Apache Spark - apache-spark, machine-learning, concurrency

¿Cómo calcula kmean los datos de diferentes particiones? - apache-spark, k-means, rdd

¿Es posible guardar un modelo de Spark ML entrenado o un evaluador cruzado en la base de datos de postgrado? - apache-spark, machine-learning, pyspark, apache-spark-ml, máquina-aprendizaje-modelo

¿Por qué Spark detecta 8 núcleos, cuando solo tengo 4? - apache-spark, cpu-cores, webui

Inicializando un modelo StreamingKmeans con datos de entrenamiento estáticos: apache-spark, spark-streaming, k-means, apache-spark-mllib

¿Por qué se reduce la cantidad de ejecutores de chispas usando configuraciones personalizadas en EMR? Amazon-web-services, apache-spark, emr