/ / linee guida per gestire i valori delle caratteristiche categoriali mancanti in Regolatore forestale casuale - scikit-learn, random-forest

linee guida per gestire i valori delle caratteristiche categoriali mancanti in Random Forest Regressor - scikit-learn, random-forest

Qual è una linea guida generale per gestire la mancanzavalori di caratteristiche categoriali quando si utilizza il Random Forest Regressor (o qualsiasi altro discografico insieme per questo)? So che lo scikit apprende ha funzione di imputazione (come media ... strategia o prossimità) per imputare valori mancanti (numerici). Ma come si maneggia il valore categorico mancante: come l'industria (petrolio, computer, auto, Nessuna), maggiore (scapoli, maestri, dottorato, Nessuna).

Qualsiasi suggerimento è apprezzato.

risposte:

0 per risposta № 1

Breiman e Cutler, gli inventori di Random Forest, suggeriscono due possibili strategie (vedi http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1):

Le foreste casuali hanno due modi di sostituire i dispersivalori. Il primo modo è veloce. Se la variabile mth non è categoriale, il metodo calcola la mediana di tutti i valori di questa variabile in classe j, quindi utilizza questo valore per sostituire tutti i valori mancanti della variabile mth in classe j. Se la variabile mth è categoriale, la sostituzione è il massimo frequente valore non mancante in classe j. Questi valori di sostituzione sono chiamati riempimenti.

Il secondo modo di sostituire i valori mancanti èpiù computazionalmente costoso ma ha dato prestazioni migliori rispetto al primo, anche con grandi quantità di dati mancanti. Sostituisce i valori mancanti solo nel set di allenamento. Inizia facendo una compilazione approssimativa e inaccurata di i valori mancanti. Quindi esegue una foresta e calcola vicinanze.

In alternativa, lasciando da parte la variabile etichettaper un minuto, è possibile addestrare un classificatore su righe che hanno valori non nulli per la variabile categoriale in questione, utilizzando tutte le funzioni nel classificatore. Quindi utilizzare questo classificatore per prevedere i valori per la variabile categoriale in questione nel "set di test". Dotato di un set di dati più completo, è ora possibile tornare all'attività di previsione dei valori per la variabile di etichetta originale.