/ / Dlaczego strony indeksujące Google są blokowane przez mój plik robots.txt? - SEO, wyszukiwarka, roboty Google, powielanie treści

Dlaczego Google crawling stron blokuje mój plik robots.txt? - seo, wyszukiwarka, google-crawlers, duplikat treści

Mam „podwójne” pytanie dotyczące liczby stron zaindeksowanych przez Google i może to być związek z możliwą zduplikowaną treścią (lub nie) i wpływ na SEO.

Fakty na temat mojej liczby stron i stron indeksowanych przez Google

Uruchomiłem nową stronę internetową dwa miesiące temu. Dziś ma prawie 150 stron (każdego dnia rośnie). Tak czy inaczej jest to liczba stron w mojej mapie witryny.

Jeśli spojrzę na „Statystyki indeksowania” w Google dla webmasterów, widzę, że liczba stron indeksowanych codziennie przez Google jest znacznie większa (patrz zdjęcie poniżej). Google zaindeksował do 903 stron dziennie

Nie jestem pewien, czy to jest dobre, ponieważ nie tylko sprawia, że ​​mój serwer jest trochę bardziej zajęty (5,6 MB pobierania na 903 strony dziennie), ale obawiam się, że tworzy również zduplikowane treści.

Sprawdziłem w Google (strona: mysite.com) i daje mi 1290 stron (ale wyświetlanych jest tylko 191, chyba że kliknę „powtórz wyszukiwanie z pominiętymi wynikami”. Załóżmy, że te 191 są tymi w mojej mapie witryny (myślę, że mam problem z powieleniem treści około 40 stron, ale po prostu aktualizuję stronę internetową).

Fakty na moim pliku robots.txt

Używam pliku robots.txt, aby uniemożliwić wszystkim silnikom indeksującym przechodzenie do stron z parametrami (patrz roboty poniżej), a także „Tagi”.

User-Agent: *
Disallow: /administrator
Disallow: *?s
Disallow: *?r
Disallow: *?c
Disallow: *?viewmode
Disallow: */tags/*
Disallow: *?page=1
Disallow: */user/*

Najważniejszy to tagi. Są w moim adresie URL, jak następuje:

www.mysite.com/tags/Advertising/writing

Jest blokowany przez plik robots.txt (sprawdzam u webmastera Google), ale nadal jest obecny w wyszukiwarce Google (ale musisz kliknąć „powtórz wyszukiwanie z uwzględnieniem pominiętych wyników”).

Nie chcę, aby te strony były indeksowane, ponieważ stanowią zduplikowaną treść (rodzaj wyszukiwania słowa kluczowego), dlatego umieszczam je w pliku robots.txt

Wreszcie moje pytania to:

Dlaczego Google indeksuje strony, które zablokowałem w pliku robots.txt?

Dlaczego Google indeksuje strony, które zablokowałem? Czy te strony są uważane przez Google za zduplikowane treści? Jeśli tak, to chyba źle wpływa na SEO.

EDYCJA: NIE pytam, jak usunąć strony zaindeksowane w Google (już znam odpowiedź).

Odpowiedzi:

1 dla odpowiedzi № 1

Dlaczego Google indeksuje strony, które zablokowałem w pliku robots.txt? Dlaczego Google indeksuje strony, które zablokowałem?

Być może zaindeksowali go, zanim go zablokowałeś. Musisz poczekać, aż przeczytają zaktualizowany plik robots.txt, a następnie odpowiednio zaktualizować ich indeks. Nie ma ustalonego harmonogramu, ale zwykle jest dłuższy w przypadku nowszych stron internetowych.

Czy te strony są uważane za zduplikowane treści?

Ty nam powiedz. Zduplikowana treść ma miejsce, gdy dwie strony mają identyczną lub prawie identyczną treść na dwóch lub więcej stronach. Czy to dzieje się na twojej stronie?

Blokowanie zduplikowanych treści jest nie sposób na rozwiązanie tego problemu. Powinieneś używać kanoniczne adresy URL. Blokowanie stron oznacza, że ​​„łączysz się z„ czarnymi dziurami ”w swojej witrynie, co szkodzi wysiłkom SEO. Kanoniczne adresy URL zapobiegają temu i zapewniają kanonicznemu adresowi URL pełne uznanie za związane z nim warunki i wszystkie linki do wszystkich zduplikowanych stron.