Ayuda en la programación, respuestas a preguntas / Pitón / ¿Una forma eficiente de construir una matriz de distancias por pares entre muchos vectores? - Python, Numpy, Scipy, memoria eficiente, escalable

¿Una forma eficiente de construir una matriz de distancias por pares entre muchos vectores? - Python, Numpy, Scipy, memoria eficiente, escalable

Primero, gracias por leer y tomarse el tiempo para responder.

En segundo lugar, la pregunta:

Tengo una matriz PxN X donde P está en el orden de10 ^ 6 y N es del orden de 10 ^ 3. Entonces, X es relativamente grande y no es escaso. Digamos que cada fila de X es una muestra de N dimensiones. Quiero construir una matriz PxP de distancias en pares entre estas muestras de P. Digamos también que estoy interesado en las distancias de Hellinger.

Hasta ahora estoy confiando en matrices dok dispersas:

def hellinger_distance(X):
P = X.shape[0]
H1 = sp.sparse.dok_matrix((P, P))
for i in xrange(P):
if i%100 == 0:
print i
x1 = X[i]
X2 = X[i:P]
h = np.sqrt(((np.sqrt(x1) - np.sqrt(X2))**2).sum(1)) / math.sqrt(2)
H1[i, i:P] = h
H = H1 + H1.T
return H

Esto es super lento. ¿Hay una manera más eficiente de hacer esto? Cualquier ayuda es muy apreciada.

Respuestas

2 para la respuesta № 1

Puedes usar pdist y squareform de scipy.spatial.distance -

from scipy.spatial.distance import pdist, squareform

out = squareform(pdist(np.sqrt(X)))/np.sqrt(2)

O usar cdist de lo mismo

from scipy.spatial.distance import cdist

sX = np.sqrt(X)
out = cdist(sX,sX)/np.sqrt(2)

1 para la respuesta № 2

Además de la respuesta de Divakar, me di cuenta de que hay una implementación de esto en sklearn que permite el procesamiento paralelo:

from sklearn.metrics.pairwise import pairwise_distances
njobs = 3
H = pairwise_distances(np.sqrt(X), n_jobs=njobs, metric="euclidean") / math.sqrt(2)

Haré una evaluación comparativa y publicaré los resultados más tarde.

preguntas relacionadas

Pregunta de Python Numpy y Python Version Question - Python, matrix, numpy, matrix-multiplication, norm

No se puede crear csr.matrix () no vacía en scipy - python, python-2.7, numpy, matrix, scipy

Optimizar Hamming Distance Python - python, numpy, optimización, knn, hamming-distance

Rendimiento de scipy.weave.inline - python, performance

Python - vectores dispersos / cálculo de distancia - python, vector, scipy, distancia, matriz dispersa

calcular la distancia entre dos matrices numpy: python, numpy, scipy

Python Numpy eficiente Polar distancia euclidiana - python, numpy, matriz, vectorización, distancia euclidiana

¿Cómo calcular el producto de puntos de dos matrices de vectores en python? [duplicado] - python, numpy, scipy, vectorización, álgebra lineal

vector desconocido tamaño python - python, matlab, vector

¿Cómo crear una matriz bidimensional muy grande en python? - python, python-2.7, matriz, matriz multidimensional, matriz dispersa

Elemento punto sabio producto de matrices y vectores [duplicado] - python, numpy, matrix, numpy-broadcasting

Distancias euclidianas - python, numpy, scikit-learn

¿Cómo se obtiene la media y el estándar de una columna en un csr_matrix? - Python, Numpy, Scipy, matriz dispersa

matriz diagonal de una matriz con numpy y scipy - python, numpy, scipy

¿Cómo multiplicar dos vectores y obtener una matriz? - python, numpy, matriz, vector

Error de memoria: numpy.genfromtxt () - python, memory, numpy, scipy

Python: Matriz de construcción mediante operaciones inteligentes de elementos en matrices numpy - python, matrices, numpy

diagonales paralelas a la primera diagonal en una matriz cuadrada - python-3.x

La forma más rápida de calcular la distancia euclidiana entre 2 conjuntos de vectores usando numpy o scipy - numpy, scipy, python-2.x, euclidean-distance

cálculo de la matriz de distancias de una determinada matriz de vectores en filas: matriz, número, distancia