/ / Jak kategoryzować dane ciągłe? - uczenie maszynowe, klasyfikacja

Jak kategoryzować dane ciągłe? - uczenie maszynowe, klasyfikacja

Mam dwie zależne zmienne ciągłe i ichcą użyć połączonych wartości do przewidywania wartości trzeciej zmiennej binarnej. Jak mogę dyskretyzować / kategoryzować wartości? Nie szukam algorytmów grupowania, jestem szczególnie zainteresowany uzyskaniem "znaczących" dyskretnych kategorii, które mogę później wykorzystać w klasyfikatorze Bayesian. Wskaźniki do dokumentów, książek, kursów online, wszystkie bardzo doceniane!

Odpowiedzi:

0 dla odpowiedzi № 1

To jest esencja uczenie maszynowego i problem jeden z najlepiej zbadanych problemów.

Regresja najmniejszych kwadratów, regresja logistyczna, SVM, losowy las są szeroko stosowane w tego typu problemach, co nazywa się klasyfikacją binarną.

Jeśli Twoim celem jest pragmatyczna klasyfikacja danych, dostępnych jest kilka bibliotek, takich jak Scikit - ucz się w Pythonie i Weka w Javie. Mają świetną dokumentację.

Ale jeśli chcesz zrozumieć, co jest nieodłączną częścią uczenia maszynowego, po prostu wyszukaj (tutaj lub w google) zasoby do uczenia maszynowego.


0 dla odpowiedzi nr 2

Jeśli chcesz być prawdziwym kujonem, wygeneruj kilkaróżnych możliwych dyskretyzacji, a następnie wyszkolić na nim klasyfikator, a następnie scharakteryzować dyskretyzacje według cech, a następnie uruchomić na nim klasyfikator i zobaczyć, jakie rodzaje dyskretyzacji są najlepsze !?

Ogólnie rzecz biorąc dyskretyzacja jest bardziej sztuką i dobrze rozumie, co oznaczają zmienne zakresy wejściowe.