Ayuda en la programación, respuestas a preguntas / Pitón / Tamaño de la muestra en Regresión de bosque aleatorio - python, aprendizaje automático, aprendizaje de aprendizaje, bosque aleatorio

Tamaño de la muestra en Regresión de bosque aleatorio: python, aprendizaje automático, scikit-learn, random-forest

Si se entiende correctamente, cuando Random Forestlos estimadores se calculan, por lo general, se aplica una secuencia de inicio, lo que significa que un árbol (i) se construye solo con los datos de la muestra (i), seleccionados con reemplazo. Quiero saber cuál es el tamaño de la muestra que sklearn RandomForestRegressor usos.

Lo único que veo que está cerca:

bootstrap : boolean, optional (default=True)
Whether bootstrap samples are used when building trees.

Pero no hay manera de especificar el tamaño o la proporción del tamaño de la muestra, ni tampoco me dice acerca del tamaño de la muestra por defecto.

Siento que debería haber una manera de al menos saber cuál es el tamaño de muestra predeterminado, ¿qué me falta?

Respuestas

3 para la respuesta № 1

El tamaño de muestra para bootstrap es siempre el número de muestras.

No te estás perdiendo nada, la misma pregunta se hizo en el lista de correo para RandomForestClassifier:

El tamaño de la muestra bootstrap es siempre el mismo que el tamaño de la muestra de entrada. Si se siente a gusto, una solicitud de extracción de datos que actualice la documentación probablemente sería muy bienvenida.

4 para la respuesta № 2

Uhh, estoy de acuerdo contigo, es bastante extraño que no podamos especificar el tamaño de la submuestra / bootstrap en RandomForestRegressor algo Tal vez una posible solución es utilizar BaggingRegressor en lugar. http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingRegressor.html#sklearn.ensemble.BaggingRegressor

RandomForestRegressor es solo un caso especial de BaggingRegressor (use bootstraps para reducir la varianza de un conjunto de estimadores de baja desviación-alta-desviación). En RandomForestRegressor, el estimador base es forzado a ser DeceisionTree, Mientras en BaggingRegressor, tienes la libertad de elegir el base_estimator. Lo más importante es que puede establecer el tamaño de su submuestra personalizada, por ejemplo max_samples=0.5 dibujará submuestras aleatorias con un tamaño igual a la mitad de todo el conjunto de entrenamiento. Además, puede elegir solo un subconjunto de funciones configurando max_features y bootstrap_features.