Co to jest ogólna wskazówka do obsługi brakującychkategoryczne wartości cech podczas korzystania z Losowego Regresora Lasu (lub dowolnego ucznia z tej grupy)? Wiem, że scikit learn ma funkcję imputowania (jak średnia ... strategia lub bliskość) do narzucania brakujących wartości (liczbowych). Ale jak sobie radzić z brakującą wartością kategoryczną: jak przemysł (olej, komputer, auto, Żaden), major (licencjaci, mistrzowie, doktoranci, Żaden).
Wszelkie sugestie są mile widziane.
Odpowiedzi:
0 dla odpowiedzi № 1Breiman i Cutler, twórcy Losowego Lasu, sugerują dwie możliwe strategie (zob http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1):
Losowe lasy mają dwa sposoby na zastąpienie brakującychwartości. Pierwszy sposób jest szybki. Jeśli mth zmienna nie jest kategoryczna, metoda oblicza mediana wszystkich wartości tej zmiennej w klasie j, a następnie używa ta wartość zastępuje wszystkie brakujące wartości zmiennej mth w klasie jot. Jeśli mth zmienna jest kategoryczna, zamiennik jest najbardziej często brakująca wartość w klasie j. Te zastępcze wartości to nazywane wypełnieniami.
Drugim sposobem zastąpienia brakujących wartości jestobliczeniowo więcej drogie, ale dało lepszą wydajność niż pierwsza, nawet z duże ilości brakujących danych. Zastępuje brakujące wartości tylko w zestaw treningowy. Zaczyna się od szorstkiego i niedokładnego wypełnienia brakujące wartości. Następnie wykonuje przebieg lasu i wykonuje obliczenia bliskości.
Ewentualnie pozostaw na boku zmienną etykietyprzez minutę możesz wytrenować klasyfikator w wierszach, które mają wartości inne niż null dla danej zmiennej kategorialnej, używając wszystkich funkcji w klasyfikatorze. Następnie użyj tego klasyfikatora, aby przewidzieć wartości dla danej zmiennej jakościowej w swoim "zestawie testowym". Uzbrojony w pełniejszy zestaw danych, możesz teraz powrócić do zadania przewidywania wartości oryginalnej zmiennej etykiety.