/ / Як розмір зразка SciKit-Learn Random Forest може дорівнювати початковому розміру даних навчання? - python, scikit-learn, випадковий ліс, подвыборка

Як можна підрахувати розмір підмереж SciKit-Learn Random Loss до оригінального розміру навчальних даних? - python, scikit-learn, random-forest, sub-sample

У документації класифікатора SciKit-Learn Random Forest зазначено, що

Розмір зразка завжди збігається з початковим розміром вибірки, але зразки вибираються із заміною, якщо bootstrap = True (за замовчуванням).

Що я не розумію, що якщо розмір вибірки завжди збігається з розміром вхідної вибірки чим ми можемо говорити про випадковий вибір. Тут немає вибору, тому що ми використовуємо всі (і природно однакові) зразки на кожному тренуванні.

Я тут щось відсутній?

Відповіді:

3 для відповіді № 1

я вірю цієї частини з документів відповідає на ваше запитання

У випадкових лісах (див. RandomForestClassifierі Класи RandomForestRegressor), кожне дерево в ансамблі будується з вибірки, намальованої із заміною (наприклад, зразком завантажувальної версії) навчальний набір. Крім того, при поділі вузла під час Будівництво дерева, вибраний розкол більше не є Найкраще розділити всі функції. Натомість вибраний розкол кращий розкол між випадковим підмножиною функцій. Як результат ця випадковість, упередженістьліс зазвичай трохи збільшується (по відношенню до зміщення одного невипадкового дерева), але, за рахунок усереднення, його дисперсія також зменшується, як правило, більше, ніж компенсує для збільшення упередженості, отже, приносить загальну кращу модель.

Ключ до розуміння в "вибірці" з заміноюЦе означає, що кожен екземпляр може бути намальовані більше одного разу. Це, у свою чергу, означає, що деякі випадки в наборі поїздів присутні кілька разів, а деякі взагалі відсутні. Це різні для різних дерев


1 для відповіді № 2

Звичайно, не всі зразки вибираються для кожногодерево. Будь за замовчуванням кожен зразок має 1 - ((N-1) / N) ^ N ~ 0,63 шанс бути вибірка для одного конкретного дерева і 0,63 ^ 2 для того, щоб бути дискретизованим двічі, і 0,63 ^ 3 для вибірки 3 рази де N - розмір вибірки навчального набору.

Кожен вибір завантажувального зразка в середньомудостатньо відрізняється від інших завантажувальних пристроїв, так що дерева рішень адекватно різні, так що середнє прогнозування дерев стійке до дисперсії кожної моделі дерева. Якщо розмір вибірки може бути збільшений до 5 разів більше, ніж розмір навчального набору, то кожне спостереження, ймовірно, має бути 3-7 разів у кожному дереві, і загальна продуктивність прогнозування ансамблю буде страждати.