/ / Podobieństwa między drzewami - algorytm, drzewo, dopasowywanie ciągów, podobieństwo

Podobieństwa między drzewami - algorytm, drzewo, dopasowywanie ciągów znaków, podobieństwo

Pracuję nad problemem klastrowaniaWyniki wyszukiwania słów kluczowych na wykresie. Wyniki są w formie drzewa i muszę połączyć te trójki w grupę na podstawie ich podobieństw. Każdy węzeł drzewa ma dwa klucze, jeden to nazwa tabeli w bazie danych SQL (forma semantyczna), a drugi to rzeczywiste wartości rekordu tej tabeli (etykiety).

Użyłem Zhang i Shasha, Klein, Demaine iAlgorytmy RTED, aby znaleźć drzewo Edytuj Odległość między drzewami na podstawie tych dwóch kluczy. Wszystkie algorytmy nie wymagają operacji usuwania / wstawiania / relabelowania, aby zmodyfikować drzewa, aby wyglądały tak samo.

** Chcę więcej matryc, aby sprawdzićpodobieństwa między dwoma drzewami, np. Liczba węzłów, średnie wygaszenia i więcej, aby móc pobrać średnią ważoną tych macierzy, aby dotrzeć do bardzo dobrej macierzy podobieństwa, która uwzględnia zarówno semantyczną formę drzewa (strukturę), jak i informacje zawarte w drzewie (Etykiety w węźle).

Czy możesz mi zaproponować jakieś wyjście lub literaturę, która może być pomocna? **

Czy ktoś może zasugerować mi jakiś dobry artykuł

Odpowiedzi:

0 dla odpowiedzi № 1

Nawet jeśli masz (pseudo-) odległości między każdą parą możliwych drzew, tak naprawdę nie jest to, czego szukasz. Właściwie chcesz to zrobić nauka bez nadzoru (grupowanie), w którym łączysz strukturęnauka z uczeniem się parametrów. Typy struktur danych, na których chcesz wnioskować, to drzewa. Aby postulować „trochę przestrzeni metrycznej” dla metody grupowania, wprowadzasz coś, co nie jest konieczne. Aby znaleźć właściwy miara odległości to bardzo trudny problem. W kolejnych akapitach wskażę różne kierunki i mam nadzieję, że pomogą ci w drodze.

Poniższy nie jest jedynym sposobem na przedstawienie tego problemu ... Możesz zobaczyć swój problem jako Wnioskowanie bayesowskie nad wszystkimi możliwymi drzewami ze wszystkimi możliwymi wartościamiw węzłach drzewa. Prawdopodobnie miałbyś pewną wiedzę na temat tego, jakie drzewa są bardziej prawdopodobne niż inne i / lub jakie wartości są bardziej prawdopodobne niż inne. Podejście bayesowskie pozwoliłoby ci zdefiniować przejęcia dla obu.

Jednym z artykułów, które warto przeczytać, jest „Nauka z mieszankami drzew” Meili i Jordana, 2000 (pdf). Wyjaśnia, że ​​można użyć a rozkładalny przed: struktura drzewa ma inną wartość niż wartości / parametry (oznacza to oczywiście, że istnieje tu pewne założenie niezależności).

Wiem, że sugerowałeś heurystykę, taką jakprzeciętny fan-out itp., ale warto sprawdzić te nowe aplikacje wnioskowania bayesowskiego. Zauważ, na przykład, że w nieparametrycznej metodzie bayesowskiej możliwe jest również rozumowanie o nieskończonych drzewach, jak to zrobiono autor: Hutter, 2004 (pdf)!