Pomoc w programowaniu, odpowiedzi na pytania / Seo / Jak ocenić wyszukiwarkę? - SEO, wyszukiwarka, PageRank

Jak ocenić wyszukiwarkę? - seo, wyszukiwarka, pagerank

Jestem studentem przeprowadzającym badanie w celu ulepszenia istniejącego algorytmu wyszukiwarki.

Chcę wiedzieć, jak mogę ocenić wyszukiwarkę - którą ulepszyłem - w celu oszacowania, jak bardzo algorytm został ulepszony.

Jak powinienem zacząć porównywać stary i nowy algorytm?

Dzięki

Odpowiedzi:

11 dla odpowiedzi nr 1

Zwykle odbywa się to poprzez utworzenie zestawu pytań testowych, a następnie ocenę, jak dobrze odpowiedź wyszukiwania odpowiada na te pytania. W niektórych przypadkach odpowiedzi powinny być jednoznaczne (jeśli wpiszesz slashdot do wyszukiwarki, której oczekujesz slashdot.org jako najlepszy hit), abyś mógł traktować je jako klasę trudnych zapytań z „poprawnymi” odpowiedziami.

Większość innych zapytań jest z natury subiektywna. Aby zminimalizować stronniczość, należy poprosić wielu użytkowników o wypróbowanie wyszukiwarki i ocenę wyników w porównaniu z oryginałem. Oto przykład artykułu informatyki, który robi coś podobnego:

http://www.cs.uic.edu/~liub/searchEval/SearchEngineEvaluation.htm

Jeśli chodzi o konkretne porównanie algorytmów,choć oczywiste, to, co mierzysz, zależy od tego, co chcesz wiedzieć. Na przykład możesz porównać wydajność w obliczeniach, zużyciu pamięci, przeszukiwaniu lub czasie zwracania wyników. Jeśli próbujesz uzyskać bardzo specyficzne zachowanie, takie jak bieganie specjalistyczne wyszukiwanie (np. poszukiwanie literatury) pewnych parametrów, następnie należy je wyraźnie przetestować.

Przydatna jest również heurystyka pod kątem trafności. Na przykład, gdy ktoś używa wyszukiwanych haseł, które prawdopodobnie są „związane z programowaniem”, możesz uzyskać więcej wyników stackoverflow.com? Czy Twoje wyniki byłyby lepsze, gdyby tak było? Jeśli podajesz zestaw wag zaufania dla określonych witryn lub domen (np. Ocena .edu lub .ac.uk domen jako bardziej wiarygodne dla wyników technicznych), należy przetestować skuteczność tych wag.

10 dla odpowiedzi nr 2

Po pierwsze, zacznę od powiedzenia: cześć do ciebieza próbę zastosowania tradycyjnych metod badawczych do wyników wyszukiwania. Wiele SEO zrobiło to przed tobą i na ogół zachowują to dla siebie, ponieważ dzielenie się „niesamowitymi odkryciami” zwykle oznacza, że nie możesz już wykorzystywać ani mieć przewagi, to powiedziałem, że podzielę się jak najlepiej, jak mogę, kilka wskazówek i rzeczy do szukać.

Zidentyfikować jaką część algorytmu próbujesz ulepszyć?

Różne wyszukiwania wykonują różne algorytmy.

Szerokie wyszukiwania

Na przykład w wyszukiwanie terminoweh, silniki zwykle zwracają różne wyniki. Wspólna część tych wyników to

Kanały aktualności
Produkty
Obrazy
Posty na blogu
Wyniki lokalne (na podstawie wyszukiwania Geo IP).

Które z tych typów wyników zostaną wrzucone do miksu, mogą się różnić w zależności od słowa.

Przykład: Koty zwraca zdjęcia kotów i aktualności, Buty zwraca lokalne zakupy butów. (jest to oparte na moim IP w Chicago 6 października)

Cel w zwróceniu wyników dla szeroki termin jest zapewnienie wszystkim wszystkiego po trochu, aby wszyscy byli zadowoleni.

Modyfikatory regionalne

Zasadniczo za każdym razem, gdy dołączany jest termin regionalnywyszukiwanie, to znacznie zmodyfikuje wyniki. Jeśli wyszukasz „Chicago web design”, ponieważ dołączono słowo Chicago, wyniki zaczną się od 10 najlepszych wyników regionalnych. (są to pojedyncze linijki po prawej stronie mapy), po czym ponad 10 ofert wyświetli ogólnie „modę wyników”.

Wyniki w „pierwszej dziesiątce lokalnej” są na ogółdrastycznie różni się od tych z poniższej listy produktów organicznych. Wynika to z faktu, że lokalne wyniki (z map Google) opierają się na zupełnie innych danych w rankingu.

Przykład: Posiadanie numeru telefonu na swojej stronie internetowej z numerem kierunkowym Chicago pomoże w lokalnych wynikach ... ale NIE w ogólnych wynikach. To samo z adresem, listą żółtych książek i tak dalej.

Szybkość wyników

Obecnie (od 10.10.09) Google jest w fazie testów beta„kofeina” Główną atrakcją tego silnika jest to, że zwraca wyniki w prawie połowie czasu. Chociaż możesz nie uważać Google za powolnego ... przyspieszenie algorytmu jest ważne, gdy miliony wyszukiwań odbywają się co godzinę.

Zmniejszenie liczby spamu

Wszyscy znaleźliśmy doświadczenie wyszukiwania, które było pełne spamu. Nowa wersja Google Caffeine http://www2.sandbox.google.com/ jest dobrym przykładem W ciągu ostatnich 10+ jedna z największych bitew online toczyła się między wyszukiwarkami a wyszukiwarkami. Granie w google (i inne wyszukiwarki) jest wysoce dochodowe i to, co Google spędza większość czasu na walce.

Dobrym przykładem jest ponownie nowa wersja GoogleKofeina. Do tej pory moje badania, a także kilka innych w dziedzinie SEO, stwierdziłem, że jest to pierwsza od 5 lat kompilacja, która kładzie większy nacisk na elementy Onsite (takie jak słowa kluczowe, wewnętrzne linki do witryn itp.) Niż wcześniejsze kompilacje. Wcześniej każde „wydanie” wydawało się coraz bardziej faworyzować linki przychodzące ... to pierwszy krok wstecz w kierunku „treści”.

Sposoby testowania algorytmu.

Porównaj dwie wersje tego samego silnika. Jest to obecnie możliwe poprzez porównanie kofeiny (patrz link powyżej lub google, kofeina google) i obecnego Google.
Porównaj wyniki lokalne w różnych regionach. Spróbuj wyszukać wyszukiwane hasła, takie jak projektowanie stron internetowych, które zwracają lokalne wyniki bez lokalnego modyfikatora słowa kluczowego. Następnie użyj serwera proxy (znalezionego przez Google), aby wyszukiwać w różnych lokalizacjach. Musisz upewnić się, że znasz lokalizację serwerów proxy (znajdź witrynę w Google, która poda Twój adres IP kod pocztowy Geo IP lub miasto). Następnie możesz zobaczyć, jak różne regiony zwracają różne wyniki.

Ostrzeżenie ... NIE wybieraj terminu ślusarz ... i uważaj na wszelkie warunki, które przy zwrocie wyniku zawierają DUŻO spamerskich list. Lokalny serwis Google jest dość łatwy do spamowania, szczególnie na konkurencyjnych rynkach.

Zrób jak wspomniano w poprzedniej odpowiedzi, porównaj jakwielu użytkowników korzystających z funkcji „kliknięcia wstecz” musi znaleźć wynik. Powinieneś wiedzieć, że obecnie żadne duże silniki nie używają „współczynników odrzuceń” jako wskaźników dokładności witryn. Jest to PRAWDOPODOBNIE, ponieważ ŁATWO byłoby, gdyby wyglądało na to, że Twój wynik ma współczynnik odrzuceń w przedziale 4-8% bez faktycznego takiego niskiego ... innymi słowy, łatwo byłoby grać.
Śledź liczbę odmian wyszukiwania, z których korzystają użytkownicyśrednia dla danego terminu, aby znaleźć pożądany wynik. Jest to dobry wskaźnik tego, jak dobrze silnik mądrze zgaduje typ zapytania (jak wspomniano WAY w tej odpowiedzi).

**Zrzeczenie się. Te poglądy są oparte na moich doświadczeniach branżowych z 6 października 2009 roku. Jedną rzeczą dotyczącą SEO i silników jest to, że zmieniają się KAŻDEGO DNIA. Google może wydać kofeinę jutro, a to bardzo by się zmieniło ... to powiedziawszy, to jest zabawa w badaniach SEO!

Twoje zdrowie

2 dla odpowiedzi nr 3

Aby coś ocenić, musisz zdefiniować, czego od niego oczekujesz. Pomoże to zdefiniować sposób pomiaru.
Następnie będziesz mógł zmierzyć poprawę.

Jeśli chodzi o wyszukiwarkę, myślę, że możesz być w stanie zmierzyć jej zdolność do znalezienia rzeczy, jej dokładność w zwracaniu tego, co istotne.

To interesujące wyzwanie.

2 dla odpowiedzi № 4

Nie sądzę, że znajdziesz ostateczne rozwiązanie matematyczne, jeśli taki jest twój cel. Aby ocenić dany algorytm, potrzebujesz standardów i celów, które należy osiągnąć.

Jaki jest twój poziom odniesienia do porównania?
Co klasyfikujesz jako „ulepszone”?
Co uważasz za „udane wyszukiwanie”?
Jak duża jest twoja grupa testowa?
Jakie są twoje testy?

Na przykład, jeśli Twoim celem jest poprawaproces rankingu strony, a następnie zdecyduj, czy oceniasz skuteczność algorytmu czy dokładność. Ocena wydajności oznacza, że poświęcasz czas na uzyskanie spójnego dużego zestawu danych i zapisywanie wyników. Następnie pracowałbyś z algorytmem, aby poprawić czas.

Jeśli Twoim celem jest poprawienie dokładności, potrzebujeszaby zdefiniować, co jest „niedokładne”. Jeśli wyszukujesz „Puchar”, możesz tylko powiedzieć, że pierwsza podana strona jest „najlepsza”, jeśli sam potrafisz precyzyjnie określić, jaka jest najlepsza odpowiedź na „Puchar”.

Moja propozycja dla ciebie byłaby taka zawęzić zakres eksperymentu. Zdefiniuj jedną lub dwie cechy wyszukiwarki, które Twoim zdaniem wymagają udoskonalenia i pracuj nad ich ulepszeniem.

2 dla odpowiedzi № 5

Informacje powszechnie wykorzystywane przez naukowców precyzja i odwołanie jako dwa konkurujące ze sobą mierniki jakości systemu wyszukiwania informacji (jak wyszukiwarka).

Abyś mógł zmierzyć swoją wyszukiwarkęwydajność w stosunku do Google, na przykład poprzez zliczenie liczby odpowiednich wyników w pierwszej dziesiątce (nazwij tę precyzję) oraz liczby ważnych stron dla tego zapytania, które Twoim zdaniem powinny znajdować się w pierwszej dziesiątce, ale nie były „t ( zadzwoń, aby przypomnieć).

Nadal będziesz musiał porównać wyniki zkażdą wyszukiwarkę ręcznie na jakimś zestawie zapytań, ale przynajmniej będziesz miał jedną miarę, aby je ocenić. Ważna jest również równowaga między tymi dwoma: w przeciwnym razie możesz w prosty sposób uzyskać idealną precyzję, nie zwracając żadnych wyników ani doskonałego przypominania zwracając w rezultacie każdą stronę w sieci.

The Artykuł w Wikipedii na temat precyzji i wycofania jest całkiem dobry (i definiuje Miara F. który uwzględnia oba).

1 dla odpowiedzi № 6

W komentarzach, które „powiedziałeś”, słyszałem osposób pomiaru jakości wyszukiwarek poprzez policzenie, ile razy użytkownik musi kliknąć przycisk Wstecz, zanim znajdzie odpowiedni link, ale mogę skorzystać z tej techniki, ponieważ użytkownicy muszą przetestować Twoją wyszukiwarkę, a to jest sam ból głowy ". Cóż, jeśli umieścisz silnik w Internecie za darmo na kilka dni i trochę zareklamujesz, prawdopodobnie dostaniesz co najmniej kilkadziesiąt prób. Zapewnij tym użytkownikom losową starą lub nową wersję i zmierz te kliknięcia.

Inne możliwości: zakładamy, że Google jest z definicji idealny i porównuj swoją odpowiedź do niej w przypadku niektórych zapytań. (Może suma odległości twoich dziesięciu najlepszych linków do ich odpowiedników w Google, na przykład: jeśli twój drugi link to dwanaście linków Google, to jest to 10 odległości). To ogromne założenie, ale o wiele łatwiejsze do wdrożenia.

0 dla odpowiedzi № 7

Musisz wyraźnie zidentyfikować pozytywne inegatywne cechy, takie jak szybkość uzyskania poszukiwanej odpowiedzi lub liczba „złych” odpowiedzi, które dostają po drodze. Czy poprawa polega na tym, że poprawna odpowiedź to nr 5, ale wyniki są zwracane 20 razy szybciej? Takie rzeczy będą różne dla każdej aplikacji. Prawidłowa odpowiedź może być ważniejsza w wyszukiwaniu korporacyjnej bazy wiedzy, ale szybka odpowiedź może być potrzebna w przypadku aplikacji wsparcia telefonicznego.

Bez parametrów żaden test nie może być uznany za zwycięstwo.

0 dla odpowiedzi № 8

Uwzględnij fakt, że jakość wyszukiwaniawyniki są ostatecznie subiektywne. Do porównania powinieneś mieć wiele algorytmów oceniania: stary, nowy i kilka grup kontrolnych (np. Ocenianie według długości URI lub rozmiaru strony lub innego podobnie celowo złamanego pojęcia). Teraz wybierz kilka zapytań, które wykorzystują twoje algorytmy, powiedz około stu. Powiedzmy, że otrzymujesz w sumie 4 algorytmy. Stwórz tabelę 4x5, wyświetlającą pierwsze 5 wyników zapytania dla każdego algorytmu. (Możesz zrobić pierwszą dziesiątkę, ale pierwsze pięć jest o wiele ważniejsze.) Pamiętaj, aby losowo który algorytm pojawia się w każdej kolumnie. Następnie umieść człowieka przed tym obiektem i pozwól mu wybrać, który z 4 zestawów wyników najbardziej im się podoba. Powtórz w całym zestawie zapytań. Powtórz dla jak największej liczby ludzi, jak możesz. To powinno daje uczciwe porównanie na podstawie łącznej liczby wygranych dla każdego algorytmu.

0 dla odpowiedzi № 9

http://www.bingandgoogle.com/

Utwórz taką aplikację, która porównuje i wyodrębnia dane. Następnie uruchom test z 50 różnymi rzeczami, których potrzebujesz, a następnie porównaj z oczekiwanymi wynikami.

0 dla odpowiedzi № 10

Musiałem profesjonalnie przetestować wyszukiwarkę. Oto co zrobiłem.

Wyszukiwanie obejmowało logikę rozmytą. Użytkownik wpisuje na stronie internetowej „Kari Trigger”, a wyszukiwarka pobiera wpisy takie jak „Gary Trager”, „Trager, C”, „Corey Trager” itp., Każdy z wynikiem od 0–> 100, dzięki czemu Mógłbym uszeregować ich od najbardziej prawdopodobnych do najmniej prawdopodobnych.

Najpierw przeprojektowałem kod, aby mógłzostać wykonane usunięte ze strony internetowej, w trybie wsadowym, używając dużego pliku zapytań jako danych wejściowych. Dla każdej linii w pliku wejściowym tryb wsadowy zapisuje najlepszy wynik wyszukiwania i jego wynik. Zebrałem tysiące rzeczywistych zapytań z naszego systemu produkcyjnego i uruchomiłem je podczas konfiguracji partii w celu ustalenia linii bazowej.

Odtąd za każdym razem modyfikowałem wyszukiwanielogika, ponownie uruchomiłbym partię, a następnie różnicowałem nowe wyniki względem linii bazowej. Napisałem również narzędzia ułatwiające dostrzeżenie interesujących części pliku różnicowego. Na przykład nie obchodziło mnie, że stara logika zwróciła „Corey Trager” jako 82, a nowa logika zwróciła ją jako 83, więc moje narzędzia je odfiltrowały.

Nie osiągnąłem tak wiele, wykonując ręcznie testy. Po prostu nie miałbym wyobraźni i wglądu, aby stworzyć dobre dane testowe. Dane ze świata rzeczywistego były o wiele bogatsze.

Podsumowując:

1) Utwórz mechanizm, który pozwoli ci rozróżnić wyniki działania nowej logiki od wyników wcześniejszej logiki. 2) Testuj z dużą ilością realistycznych danych.
3) Utwórz narzędzia, które pomogą ci pracować z różnicą, odfiltrowując szum, wzmacniając sygnał.