Ако разберем правилно, когато Random Forestсе изчисляват оценители, обикновено се прилага bootstrapping, което означава, че дървото (i) се изгражда само с помощта на данни от проба (i), избрана с подмяна. Искам да знам какъв е размерът на извадката, която се проявява RandomForestRegressor използва.
Единственото нещо, което виждам, е близко:
bootstrap : boolean, optional (default=True)
Whether bootstrap samples are used when building trees.
Но няма начин да се уточни размерът или пропорцията на размера на извадката, нито пък да ми кажете за размера на извадката по подразбиране.
Чувствам се, че трябва да има начин поне да знаете какъв е размерът на извадката по подразбиране, какво ли липсвам?
Отговори:
3 за отговор № 1Размерът на извадката за bootstrap е винаги броят на пробите.
Не ти липсва нищо, един и същ въпрос беше зададен по въпроса пощенски списък за RandomForestClassifier
:
Размерът на извадката на bootstrap е винаги същият като размера на извадката на входа. Ако се почувствате до него, искането за обновяване на документацията вероятно ще бъде добре приветствано.
4 за отговор № 2
Аз съм съгласен с вас, че е доста странно, че не можем да определим размера на подмамката / буферната лента в RandomForestRegressor
Дълго. Може би е възможно да бъде използвано BaggingRegressor
вместо. http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingRegressor.html#sklearn.ensemble.BaggingRegressor
RandomForestRegressor
е само специален случай BaggingRegressor
(използвайте bootstraps, за да намалите вариацията на набор от оценители с ниска пристрастност и висока вариация). в RandomForestRegressor
, основният оценител е принуден да бъде DeceisionTree
, докато в BaggingRegressor
, имате свободата да избирате base_estimator
, По-важното е, че можете да зададете например персонализирания размер на подмамката си max_samples=0.5
ще изготвят произволни подпроби с размер, равен на половината от целия набор от тренировки. Също така, можете да изберете само подмножество от функции чрез настройка max_features
и bootstrap_features
.