/ / Forêt aléatoire sur un grand jeu de données - r, apprentissage automatique, forêt aléatoire

Forêt aléatoire sur un grand jeu de données - r, apprentissage automatique, forêt aléatoire

J'ai un grand ensemble de données dans R (1M + lignes de 6 colonnes) que je veux utiliser pour former une forêt aléatoire (en utilisant le randomForest package) à des fins de régression. Malheureusement, je reçois un Error in matrix(0, n, n) : too many elements specified erreur en essayant de faire le tout à la fois et ne peut pas allouer suffisamment de mémoire type d'erreurs lors de l'exécution sur un sous-ensemble de données - jusqu'à 10 000 observations environ.

Voyant qu’il n’y avait aucune chance que je puisse ajouter plus de RAM sur ma machine et que les forêts aléatoires conviennent parfaitement au type de processus que j’essaie de modéliser, j’aimerais vraiment que cela fonctionne.

Toutes les suggestions ou idées de solutions de contournement sont très appréciées.

Réponses:

11 pour la réponse № 1

Vous êtes susceptible de demander randomForest pour créer la matrice de proximité pour les données, qui, si vous y réfléchissez, sera follement grand: 1 million x 1 million. Une matrice de cette taille serait nécessaire, peu importe la taille que vous définissez sampsize. En effet, simplement googler le message d'erreur semble le confirmer, car l'auteur du paquet États que le seul endroit dans tout le code source où n,n) est trouvé est en calculant la matrice de proximité.

Mais il est difficile d’aider davantage, étant donné que vous n’avez fourni aucun détail sur le code que vous utilisez.


1 pour la réponse № 2

Je recommande le bigrf paquet dans R, car il est conçu pour le type de problème rencontré (c’est-à-dire le manque de RAM). Malheureusement, en ce moment, bigrf a été retiré du CRAN, mais il est toujours disponible dans les archives (voir la réponse: Impossible d'installer le paquet bigrf).

Une autre approche pourrait consister à combiner des fréquences radio basées sur différentes données d’apprentissage, mais les résultats pourraient être considérés comme dépourvus de sens (voir la réponse: Combinaison de forêts aléatoires construites avec différents ensembles d’entraînement en R pour plus de détails). La modification mentionnée dans ce dernier article a bien fonctionné pour moi, mais les RF combinés que j'ai exécutés étaient parfois meilleurs et parfois pires par rapport à l'utilisation d'un seul RF (YMMV).