Aiuto nella programmazione, risposte alle domande / r / Foresta casuale su un set di dati di grandi dimensioni: r, apprendimento automatico, foresta casuale

Foresta casuale su un grande set di dati - r, machine-learning, random-forest

Ho un grande set di dati in R (1 M + righe per 6 colonne) che voglio usare per addestrare una foresta casuale (usando il randomForest pacchetto) a fini di regressione. Sfortunatamente, ottengo un Error in matrix(0, n, n) : too many elements specified errore quando si tenta di fare tutto in una volta e impossibile allocare memoria sufficiente tipo di errori durante l'esecuzione su un sottoinsieme dei dati - fino a circa 10.000 osservazioni.

Visto che non c'è alcuna possibilità di aggiungere più RAM sulla mia macchina e che le foreste casuali sono molto adatte al tipo di processo che sto cercando di modellare, mi piacerebbe davvero farlo funzionare.

Eventuali suggerimenti o idee alternative sono molto apprezzati.

risposte:

11 per risposta № 1

Probabilmente stai chiedendo randomForest per creare la matrice di prossimità per i dati, che se ci pensate, sarà follemente grande: 1 milione x 1 milione. Sarebbe necessaria una matrice di queste dimensioni, non importa quanto piccolo sia impostato sampsize. In effetti, semplicemente cercare su Google il messaggio di errore sembra confermarlo, come l'autore del pacchetto stati che l'unico posto nell'intero codice sorgente dove n,n) si trova nel calcolo della matrice di prossimità.

Ma è difficile aiutare di più, dato che non hai fornito dettagli sul codice reale che stai utilizzando.

1 per risposta № 2

Io consiglierei il bigrf pacchetto in R, poiché è progettato per il tipo di problema che hai riscontrato (ovvero mancanza di RAM sufficiente). Sfortunatamente, in questo momento, bigrf è stato rimosso da CRAN, ma è ancora disponibile negli archivi (vedi risposta: Impossibile installare il pacchetto bigrf).

Un altro approccio potrebbe comportare la combinazione di RF basate su dati di addestramento diversi, ma i risultati potrebbero essere considerati privi di senso (vedi risposta: Combinazione di foreste casuali costruite con diversi set di addestramento in R per dettagli). La modifica menzionata in quest'ultimo post ha funzionato per me, ma le RF combinate che ho eseguito a volte erano migliori e talvolta peggiori rispetto all'uso di una sola RF (YMMV).