Ayuda en la programación, respuestas a preguntas / Pitón / Cómo seleccionar columnas que están altamente correlacionadas con una columna específica en un marco de datos: python, pandas, correlation, tabular

Cómo seleccionar columnas que están altamente correlacionadas con una columna específica en un marco de datos: python, pandas, correlación, tabular

Tengo un marco de datos que tiene más de 100 columnas,Con lo cual estoy tratando de construir un modelo. En este caso, una columna (A) en este marco de datos se considera como una respuesta y todas las demás columnas (B, C, D, etc.) son predictores. Así que estoy tratando de seleccionar todas las columnas que están correlacionadas con la columna A en función del factor de correlación (digamos> 0.2). Ya generé un mapa de calor con todos los factores de correlación entre cada par de columnas. Pero, ¿puedo tener un método rápido en pandas para obtener todas las columnas con un factor de correlación de más de 0.2 (que, por supuesto, ajustaré si es necesario) a la columna A? ¡Gracias por adelantado!

Respuestas

1 para la respuesta № 1

Utilizar el DataFrame para calcular la correlación, luego corte las columnas según su condición de corte con una máscara booleana.

import pandas as pd
df = pd.DataFrame({"A": [1,2,3,4,5,6,7,8,9,10],
"B": [1,2,4,3,5,7,6,8,10,11],
"C": [15,-1,17,-10,-10,-13,-99,-101,0,0],
"D": [0,10,0,0,-10,0,0,-10,0,10]} )

df.loc[:, df.corr()["A"] > 0.2]

A   B
0   1   1
1   2   2
2   3   4
3   4   3
4   5   5
5   6   7
6   7   6
7   8   8
8   9   10
9   10  11

preguntas relacionadas

Valor de p python para la fila de panda: pitón, pandas

Aplicando nombres de columna a pandas DataFrame, los nombres ya no son unicode - python, python-2.7, pandas, unicode

Usar pandas.DataFrame.at () en un bucle for: python, list, pandas, for-loop, dataframe

cómo convertir la fila de encabezado en nuevas columnas en Python pandas? - python, python-2.7, pandas, dataframe, transponer

La mejor forma de eliminar columnas con un solo valor del marco de datos de pandas: python, pandas

Python Pandas: ¿cuál es la mejor manera de almacenar los valores de correlación de Pearson almacenados en el marco de datos de pandas? - python, pandas

Borrar todas las columnas excepto unos pocos python-pandas - python, pandas

Pandas: almacenamiento de un objeto DataFrame dentro de otro DataFrame, es decir, DataFrame anidado - python, pandas, dataframe

Aplicación de funciones a todas las demás columnas en el marco de datos de pandas: python, pandas

¿Cómo se calcula la correlación entre todas las columnas en un DataFrame y todas las columnas en otro DataFrame? - Python, Python-3.x, pandas

Python (Pandas): cree una columna haciendo coincidir los valores de la columna en el marco de datos: python, pandas, dataframe

pandas to_latex () se escapa de mathmode - python, pandas, latex

Gestión de múltiples dataframes: python, python-3.x, pandas, dataframe

Cambie el nombre de la columna del marco de datos en el tiempo de ejecución: python, pandas

Python: seleccione varias columnas en un marco de datos de otro marco de datos sin bucle - python, pandas

¿Cómo genero el coeficiente de correlación de varias columnas de un marco de datos como una nueva variable de columna en el mismo marco de datos? - Python, pandas, correlación.

pandas: obtén una combinación de columnas donde la correlación es alta: python, numpy, pandas

Correlación de pandas entre la lista de columnas X Todo el marco de datos: pitón, pandas, visualización de datos, ciencia de datos

Unir 2 marcos de datos en una columna específica con ID: pitón, pandas

Python - Dataframe de Pandas con múltiples nombres por columna - python-3.x, pandas, dataframe