/ / ¿Es posible agrupar datos de baja dimensión en memoria constante? [cerrado] - javascript, minería de datos, análisis de cluster

¿Es posible agrupar datos de baja dimensión en memoria constante? [cerrado] - javascript, minería de datos, análisis de cluster

Estoy buscando agrupar algunas dimensiones muy bajas(2 o 3) datos, en una pequeña cantidad de grupos (<25). La cantidad de instancias que tengo es extremadamente grande (orden de 100M +). Puedo transmitir estos datos desde la base de datos (y potencialmente volver a transmitirlos para cada paso), pero quiero evitar que toda la colección esté en la memoria. [Y si tengo que traerlo a la memoria, me gustaría que fuera lo más eficiente posible en la memoria]

Estoy buscando un algoritmo (e idealmente una implementación de Javascript) que cumpla con estos requisitos.

¡Gracias!

Respuestas

1 para la respuesta № 1

Mira esto MacQueens k-means Algoritmo, que funciona bien con la transmisión de datos, y su implementación es trivial.

Ah, y ha existido desde los años 60 o así.

Pero también tenga en cuenta que también puede ejecutarloen una muestra representativa de su conjunto de datos. Lo más probable es que el resultado no sea sustancialmente diferente. El volumen no cambia las cosas estadísticas, como significa mucho.