/ / Размер на извадката в случайна регресия на горите - питън, машинно обучение, Scikit-learn, произволна гора

Размер на пробата в случайна регресия на гората - питън, машинно обучение, Scikit-learn, случайно горски

Ако разберем правилно, когато Random Forestсе изчисляват оценители, обикновено се прилага bootstrapping, което означава, че дървото (i) се изгражда само с помощта на данни от проба (i), избрана с подмяна. Искам да знам какъв е размерът на извадката, която се проявява RandomForestRegressor използва.

Единственото нещо, което виждам, е близко:

bootstrap : boolean, optional (default=True)
Whether bootstrap samples are used when building trees.

Но няма начин да се уточни размерът или пропорцията на размера на извадката, нито пък да ми кажете за размера на извадката по подразбиране.

Чувствам се, че трябва да има начин поне да знаете какъв е размерът на извадката по подразбиране, какво ли липсвам?

Отговори:

3 за отговор № 1

Размерът на извадката за bootstrap е винаги броят на пробите.

Не ти липсва нищо, един и същ въпрос беше зададен по въпроса пощенски списък за RandomForestClassifier:

Размерът на извадката на bootstrap е винаги същият като размера на извадката на входа. Ако се почувствате до него, искането за обновяване на документацията вероятно ще бъде добре приветствано.


4 за отговор № 2

Аз съм съгласен с вас, че е доста странно, че не можем да определим размера на подмамката / буферната лента в RandomForestRegressor Дълго. Може би е възможно да бъде използвано BaggingRegressor вместо. http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingRegressor.html#sklearn.ensemble.BaggingRegressor

RandomForestRegressor е само специален случай BaggingRegressor (използвайте bootstraps, за да намалите вариацията на набор от оценители с ниска пристрастност и висока вариация). в RandomForestRegressor, основният оценител е принуден да бъде DeceisionTree, докато в BaggingRegressor, имате свободата да избирате base_estimator, По-важното е, че можете да зададете например персонализирания размер на подмамката си max_samples=0.5 ще изготвят произволни подпроби с размер, равен на половината от целия набор от тренировки. Също така, можете да изберете само подмножество от функции чрез настройка max_features и bootstrap_features.