Pomoc w programowaniu, odpowiedzi na pytania / Pyton / Jak próba SciKit-Learn Random Forest może być równa oryginalnemu rozmiarowi danych treningowych? - python, nauka scikit, losowy las, podpróbkowanie

W jaki sposób wielkość próbki podrzędnej SciKit-Learn Random Forest może być równa oryginalnemu rozmiarowi danych treningowych? - python, nauka scikit, losowy las, podpróbkowanie

W dokumentacji klasyfikatora losowego lasu SciKit-Learn podano, że

Rozmiar pod-próbki jest zawsze taki sam, jak pierwotny rozmiar próbki wejściowej, ale próbki są rysowane z zamiennikiem, jeśli bootstrap = True (domyślnie).

To, czego nie rozumiem, to to, że jeśli rozmiar próbki jest zawsze taki sam jak rozmiar próbki wejściowej niż jak możemy mówić o losowej selekcji. Nie ma tu żadnej selekcji, ponieważ używamy wszystkich (i oczywiście takich samych) próbek na każdym treningu.

Czy coś mi umyka?

Odpowiedzi:

3 dla odpowiedzi № 1

wierzę ta część dokumentów odpowiada na twoje pytanie

W losowych lasach (zobacz RandomForestClassifieri Klasy RandomForestRegressor), każde drzewo w zespole jest budowane z próbki pobranej z zamiennikiem (tj. próbka bootstrapu) z zestaw treningowy. Ponadto podczas dzielenia węzła podczas konstrukcja drzewa, wybrany podział nie jest już najlepiej podzielić między wszystkie funkcje. Zamiast tego, wybrany podział jest najlepszy podział wśród losowych podzbiorów funkcji. W wyniku ta przypadkowość, stronniczośćlas zazwyczaj nieznacznie wzrasta (w odniesieniu do odchylenia pojedynczego drzewa nie losowego), ale z powodu uśredniając, zmniejsza się również jego wariancja, zwykle z nadwyżką w celu zwiększenia tendencji, dzięki czemu uzyskano ogólnie lepszy model.

Kluczem do zrozumienia jest "próbka narysowana" z wymianą"Oznacza to, że każda instancja mogą być rysowane więcej niż jeden raz. To z kolei oznacza, że niektóre przypadki w składzie pociągu są obecne kilka razy, a niektóre w ogóle nie występują (poza workiem). Są różne dla różnych drzew

1 dla odpowiedzi nr 2

Z pewnością nie wszystkie próbki są wybrane dla każdegodrzewo. Domyślnie każda próbka ma 1 - ((N-1) / N) ^ N ~ 0,63 szansa na próbkowanie dla jednego konkretnego drzewa i 0,63 ^ 2 za próbkowanie dwa razy, a 0,63 ^ 3 za próbkowanie 3 razy ... gdzie N jest wielkością próbki zestawu treningowego.

Każda próbka początkowa jest średniawystarczająco różne od innych bootstrapów, tak że drzewa decyzyjne są odpowiednio różne, tak że średnie przewidywanie drzew jest solidne w kierunku wariancji każdego modelu drzewa. Jeśli wielkość próbki może zostać zwiększona do 5 razy więcej niż rozmiar zestawu treningowego, każda obserwacja będzie prawdopodobnie obecna 3-7 razy w każdym drzewie, a ogólna wydajność przewidywania zespołu będzie spadać.