/ / Добър алгоритъм за анализ на чувствата - алгоритъм, сантимент-анализ

Добър алгоритъм за анализ на настроенията - алгоритъм, сантиментален анализ

Опитах наивен класификатор на Байес и той работимного лошо. SVM работи малко по-добре, но все пак е ужасно. Повечето от документите, които прочетох за SVM и наивните байес с някои вариации (n-грам, POS и т.н.), но всички от тях дават резултати, близки до 50% (автори на статии говорят за 80% и високо, но не мога да получа същото на реални данни).

Има ли по-мощни методи освен lexixal analys? SVM и Bayes предполагат, че думите са независими. Тези подходи наричат ​​"торба с думи". Ами ако предположим, че думите са свързани?

Например: Използвайте априорния алгоритъм, за да откриете, че ако изреченията съдържат "лошо и ужасно" тогава 70% вероятност, че изречението е отрицателно. Също така можем да използваме разстояние между думите и така нататък.

Добра идея ли е или аз измислям велосипед?

Отговори:

4 за отговор № 1

Алгоритми като SVM, Naive Bayes и максимументропиите са контролирани алгоритми за машинно обучение, а изходът на вашата програма зависи от набора от обучения, който сте предоставили. За широкомащабния анализ на чувствата предпочитам да използвам безконтролен учебен метод, при който човек може да определи чувствата на прилагателните чрез групиране на документи в еднакви части и да маркира клъстерите положителни или отрицателни. Повече информация може да се намери в тази статия. http://icwsm.org/papers/3--Godbole-Srinivasaiah-Skiena.pdf

Надявам се това да ви помогне в работата си :)


3 за отговор № 2

Вие обърквате няколко понятия тук. Нито Наив Байес, нито SVM са обвързани с подхода на торбичката на думи.

Ето някои неща, които можете да опитате:

  • включете препинателни знаци в торбите с думи; ESP. ! и ? може да бъде полезно за анализ на настроенията, докато много екстрактори на елементи, насочени към класифициране на документи, ги изхвърлят
  • същите за стоп думи: думи като "I" и "my" могат да са показателни за субективния текст
  • изграждане на двустепенен класификатор; първо да се определи дали е изразено някакво мнение, тогава дали е положително или отрицателно
  • опитайте с квадратично ядро ​​SVM вместо с линейно, за да уловите взаимодействията между елементите.

0 за отговор № 3

Можете да намерите полезен материал Сентиметричен анализ с питон, Тази презентация обобщава анализа на настроението като 3 прости стъпки

  • Данни за етикетиране
  • Предварителна обработка &
  • Учене на модели

0 за отговор № 4

Анализът на настроенията е област на продължаващите изследвания. И сега има много изследвания. За преглед на най-новите, най-успешни подходи, бих ви препоръчвал да погледнете общите задачи на SemEval. Обикновено всяка година те провеждат конкурс за анализ на настроенията в Twitter. Можете да намерите документа, описващ задачата, и резултатите за 2016 г. тук (макар и малко технически): http://alt.qcri.org/semeval2016/task4/data/uploads/semeval2016_task4_report.pdf

Започвайки от там, можете да погледнете в документите, описващи отделните системи (както е посочено там).