/ / Різниця між подібністю документів tf-idf та наївним класифікатором Байєса - машинознавством

Відмінність між подібністю документів tf-idf та класичним класифікатором Байєса - машинного навчання

Як вибрати між подібністю документа tf-idf і наївним класифікатором Байєса. Я не розумію, який з них використовувати, чи є якийсь метод, щоб визначити, який алгоритм хороший для якої мети?

Відповіді:

2 для відповіді № 1

Ви не робите.

Термін Частота зворотного документа - це метод призначення функцій числовим значенням. Це (в основному) не залежить від методу використання для класифікації точок даних.

Я вважаю, що за подібністю ви маєте на увазі класифікацію подібності косинуса та найближчого сусідства.

Якщо ви робите класифікацію, ви бвибрати будь-який метод, який, здається, дає вам найкращу точність (або найкраще задовольнити ваші вимоги). У присутності дуже великих наборів даних обчислення подібності косинуса з кожним документом у наборі даних стає непомірно високим.

Якщо ви мали на увазі подібність косинусу до рангових результатів (знайдіть документ, подібний до Q), то "вибору" немає. Це завдання ранжування, наївні баєси - для класифікації.

У реальному житті обидва методи не є особливодобре. Ви могли б використовувати їх лише для того, щоб отримати початкове уявлення про те, наскільки важко / легке завдання може бути, кинувши на нього прості і прості методи. Якщо один "німий" метод виконаний значно краще, ніж інші, ви можете розглянути спроби більш просунутих моделей, які пов'язані з кращим німим методом.