Pomoc w programowaniu, odpowiedzi na pytania / Nauka Scikita / wytyczne dotyczące radzenia sobie z brakującymi wartościami cech jakościowych w regule Random Forest Regressor - nauka scikit, random-forest

wskazówki dotyczące radzenia sobie z brakującymi wartościami cech jakościowych w Random Forest Regressor - nauka scikit, random-forest

Co to jest ogólna wskazówka do obsługi brakującychkategoryczne wartości cech podczas korzystania z Losowego Regresora Lasu (lub dowolnego ucznia z tej grupy)? Wiem, że scikit learn ma funkcję imputowania (jak średnia ... strategia lub bliskość) do narzucania brakujących wartości (liczbowych). Ale jak sobie radzić z brakującą wartością kategoryczną: jak przemysł (olej, komputer, auto, Żaden), major (licencjaci, mistrzowie, doktoranci, Żaden).

Wszelkie sugestie są mile widziane.

Odpowiedzi:

0 dla odpowiedzi № 1

Breiman i Cutler, twórcy Losowego Lasu, sugerują dwie możliwe strategie (zob http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1):

Losowe lasy mają dwa sposoby na zastąpienie brakującychwartości. Pierwszy sposób jest szybki. Jeśli mth zmienna nie jest kategoryczna, metoda oblicza mediana wszystkich wartości tej zmiennej w klasie j, a następnie używa ta wartość zastępuje wszystkie brakujące wartości zmiennej mth w klasie jot. Jeśli mth zmienna jest kategoryczna, zamiennik jest najbardziej często brakująca wartość w klasie j. Te zastępcze wartości to nazywane wypełnieniami.

Drugim sposobem zastąpienia brakujących wartości jestobliczeniowo więcej drogie, ale dało lepszą wydajność niż pierwsza, nawet z duże ilości brakujących danych. Zastępuje brakujące wartości tylko w zestaw treningowy. Zaczyna się od szorstkiego i niedokładnego wypełnienia brakujące wartości. Następnie wykonuje przebieg lasu i wykonuje obliczenia bliskości.

Ewentualnie pozostaw na boku zmienną etykietyprzez minutę możesz wytrenować klasyfikator w wierszach, które mają wartości inne niż null dla danej zmiennej kategorialnej, używając wszystkich funkcji w klasyfikatorze. Następnie użyj tego klasyfikatora, aby przewidzieć wartości dla danej zmiennej jakościowej w swoim "zestawie testowym". Uzbrojony w pełniejszy zestaw danych, możesz teraz powrócić do zadania przewidywania wartości oryginalnej zmiennej etykiety.