Pomoc w programowaniu, odpowiedzi na pytania / Pyton / Jak wybrać kolumny, które są silnie skorelowane z jedną określoną kolumną w ramce danych - python, panda, korelacja, tabular

Jak wybrać kolumny, które są silnie skorelowane z jedną określoną kolumną w ramce danych - python, pandy, korelacje, tabele

Mam ramkę danych, która ma ponad 100 kolumn,z którym próbuję zbudować model. W tym przypadku jedna kolumna (A) w tej ramce danych jest traktowana jako odpowiedź, a wszystkie pozostałe kolumny (B, C, D itd.) Są predykatorami. Próbuję więc wybrać wszystkie kolumny, które są skorelowane z kolumną A na podstawie współczynnika korelacji (powiedzmy> 0,2). Już wygenerowałem mapę cieplną z wszystkimi współczynnikami korelacji pomiędzy każdą parą kolumn. Ale czy mogę mieć szybką metodę w pandach, aby uzyskać wszystkie kolumny o współczynniku kolokacji ponad 0,2 (który oczywiście dostosuję w razie potrzeby) do kolumny A? Z góry dziękuję!

Odpowiedzi:

1 dla odpowiedzi № 1

Użyj DataFrame obliczyć korelację, a następnie podzielić kolumny według stanu odcięcia za pomocą maski Boole'a.

import pandas as pd
df = pd.DataFrame({"A": [1,2,3,4,5,6,7,8,9,10],
"B": [1,2,4,3,5,7,6,8,10,11],
"C": [15,-1,17,-10,-10,-13,-99,-101,0,0],
"D": [0,10,0,0,-10,0,0,-10,0,10]} )

df.loc[:, df.corr()["A"] > 0.2]

A   B
0   1   1
1   2   2
2   3   4
3   4   3
4   5   5
5   6   7
6   7   6
7   8   8
8   9   10
9   10  11

Powiązane pytania

Wartość p Python dla wiersza panda - python, pandy

Stosowanie nazw kolumn do pandas DataFrame, nazwy już nie unicode - python, python-2.7, pandy, unicode

Używanie pandas.DataFrame.at () w pętli for - python, list, panda, pętla for, ramka danych

jak przekonwertować wiersz nagłówka na nowe kolumny w pandach Pythona? - python, python-2.7, pandy, ramka danych, transpozycja

Najlepszym sposobem na wyeliminowanie kolumn zawierających tylko jedną wartość z pandasowej ramki danych - python, pandy

Python Pandy - jaki jest najlepszy sposób na przechowywanie wartości korelacji pearsonów przechowywanych w pandach jako ramce danych - python, pandy

Usuwanie wszystkich kolumn z wyjątkiem kilku python-pand - python, pandy

Pandy: Przechowywanie obiektu DataFrame w innym obiekcie DataFrame, np. Zagnieżdżona DataFrame - python, panda, ramka danych

Zastosowanie funkcji do każdej innej kolumny w pandasowej ramce danych - python, pandy

Jak obliczyć korelację między wszystkimi kolumnami w DataFrame i wszystkimi kolumnami w innym DataFrame? - python, python-3.x, pandy

Python (Pandy) - Utwórz kolumnę, dopasowując wartości kolumn do ramek danych - python, panda, ramka danych

pandas to_latex () ucieka z mathmode - python, pandy, latex

Zarządzanie wieloma ramkami danych - python, python-3.x, pandy, ramka danych

Zmień nazwę kolumny ramki danych w czasie wykonywania - python, pandy

Python: Wybierz wiele kolumn w ramce danych z innej ramki danych bez pętli - python, pandy

Jak wygenerować współczynnik korelacji wielu kolumn ramki danych jako nowej zmiennej kolumny w tej samej ramce danych? - python, panda, korelacja

pandy: Uzyskaj połączenie kolumn, w których korelacja jest wysoka - python, numpy, pandy

Pandas Korelacja pomiędzy listami kolumn X Cały Dataframe - python, pandy, wizualizacja danych, data-science

Łączenie 2 ramek danych w określonej kolumnie z identyfikatorami - python, pandy

Python - Panda DataFame z wieloma nazwami na kolumnę - python-3.x, pandy, ramka danych