Як вибрати між подібністю документа tf-idf і наївним класифікатором Байєса. Я не розумію, який з них використовувати, чи є якийсь метод, щоб визначити, який алгоритм хороший для якої мети?
Відповіді:
2 для відповіді № 1Ви не робите.
Термін Частота зворотного документа - це метод призначення функцій числовим значенням. Це (в основному) не залежить від методу використання для класифікації точок даних.
Я вважаю, що за подібністю ви маєте на увазі класифікацію подібності косинуса та найближчого сусідства.
Якщо ви робите класифікацію, ви бвибрати будь-який метод, який, здається, дає вам найкращу точність (або найкраще задовольнити ваші вимоги). У присутності дуже великих наборів даних обчислення подібності косинуса з кожним документом у наборі даних стає непомірно високим.
Якщо ви мали на увазі подібність косинусу до рангових результатів (знайдіть документ, подібний до Q), то "вибору" немає. Це завдання ранжування, наївні баєси - для класифікації.
У реальному житті обидва методи не є особливодобре. Ви могли б використовувати їх лише для того, щоб отримати початкове уявлення про те, наскільки важко / легке завдання може бути, кинувши на нього прості і прості методи. Якщо один "німий" метод виконаний значно краще, ніж інші, ви можете розглянути спроби більш просунутих моделей, які пов'язані з кращим німим методом.