/ / Klasyfikacja bez nadzoru - uzyskuje się wektory cech - algorytm, tekst, analiza skupień, klasyfikacja, uczenie bez nadzoru

Nienadzorowana klasyfikacja - uzyskuje się wektory cech - algorytm, tekst, analiza skupień, klasyfikacja, bezobsługowe uczenie się

Muszę sklasyfikować produkty komercyjne. Wiesz, co robi porównanie cen.

Uzyskaliśmy wektory cech. Nie są najlepsze, ale całkiem dobre. Moim ostatnim krokiem jest zaklasyfikowanie ich bez wiedzy o liczbie klastrów. Więc algorytmy takie jak k-środki nie działają, ponieważ wymagają liczby klas.

Oto przykładowy zestaw wektorów cech. Są w porządku tutaj (jako przykład), ale potrzebuję algorytmu, który nie zależy od żadnego zamówienia.

#################################################
47 - ddr2;asus;1066;g41;am;p5qpl;775;
48 - g41;p5qpl;asus;am;ddr2;vga;anakart;
49 - intel;anakart;ddr2;1066;p5qpl;asus;am;
50 - p5qpl;ddr2;asus;am;g41;vga;anakart;
51 - ddr2;asus;1066;g41;am;p5qpl;775;
52 - g41;p5qpl;1066;am;ddr2;asus;anakart;
53 - p5qpl;ddr2;1066;am;g41;asus;sata;
54 - g41;p5qpl;1066;am;asus;ddr2;sata;
###################################################
55 - engtx480;asus;384bit;2di;gddr5;vga;16x;
56 - 2di;karti;384bit;asus;engtx480;ekran;pci;
57 - asus;engtx480;2di;vga;gddr5;384bit;16x;
58 - 2di;karti;engtx480;384bit;asus;gddr5;1536mb;
59 - engtx480;asus;384bit;2di;gddr5;vga;16x;
60 - engtx480;asus;384bit;2di;gddr5;vga;16x;
####################################################
61 - ray;blu;ihbs112;siyah;bulk;dvd;sata;
62 - ihbs112;ray;blu;on;lite;yazici;kutusuz;
63 - ihbs112;blu;ray;lite;on;siyah;bulk;
64 - blu;ihbs112;ray;lite;on;siyah;yazici;
65 - liteon;ihbs112;bd;yazma;hizi;12x;max;
66 - ihbs112;ray;blu;on;lite;bulk;dvd;
67 - etau108;dvd;siyah;lite;on;rw;ihbs112;
68 - ihbs112;liteon;bd;yazma;hizi;12x;max;
69 - ihbs112;ray;blu;lite;on;siyah;bulk;
#####################################################

Kiedy człowiek wygląda, łatwo jest klasyfikować produktyprzy użyciu tylko tych wektorów cech. Ale muszę to osiągnąć za pomocą algorytmu. A także muszę to osiągnąć za pomocą algorytmu, który nie wymaga żadnych wcześniejszych informacji po prostu używa wektorów cech.

Z powyższego wektora funkcji ustaw 47-54 jest aklastra, 55-60 innego klastra i 61-69 innego klastra (każdy klaster oznacza produkt komercyjny w prawdziwym życiu). Zatem algorytm musi poprawnie je zaklasyfikować za pomocą właśnie tego rodzaju wektorów cech.

Algorytm nie może zależeć od kolejności linii wektorów cech ani od liczby klas. Nie wiemy nic, a mamy tylko wektory cech.

Czekam na twoje sugestie dotyczące tego problemu z klasyfikacją. Dziękuję Ci.

Odpowiedzi:

2 dla odpowiedzi № 1

Teoria adaptacyjnego rezonansu to krótka odpowiedź na twoje pytanie. W przeciwieństwie do KMeansa nie trzeba wcześniej ustawiać liczby klastrów. Dane wejściowe są zbiorem wektorów cech binarnych (algorytm ART 1) lub ciągłych (ART -2A, ARTMAP itd.), A wynikiem jest klasyfikacja dokumentów w klastrach.


0 dla odpowiedzi nr 2

Potrafię zidentyfikować 3 główne problemy, które należy rozwiązać.

1) Z podanych przykładów wydaje się, że wszystkie twoje wektory mają wymiar 7. Jeśli tak NIE powinno być, możesz użyć PCA w celu zmniejszenia (nieznanej, ograniczonej) liczby wymiarów do ustalonego rozmiaru. Zapewnia to możliwość użycia algorytmu grupowania bez większych modyfikacji.

2) Aby pokonać fakt, że nie znasz rozmiaru klastra, możesz go użyć DBSCAN. Wymaga dwóch parametrów: minimalnego rozmiaru klastra i rozmiaru okolicy.

3) Potrzebujesz przestrzeni reprezentacji zwymiarowość kroku 1), na którym może działać algorytm grupowania. W tym celu trzeba wymyślić sposób konstruowania wektorów cech z tych próbek. Z przykładów, które pokazałeś, wynika, że ​​wektorami treningowymi są nie arbitralnie wypełnione symbolicznie. Wydaje mi się, że pomimo tego, co mówisz, możesz użyć heurystyki, ale jeśli nie jest to możliwe, po prostu wybierz numeryczną reprezentację jako wartości cech.