/ / Warum werden Google-Seiten durch meine robots.txt blockiert? - SEO, Suchmaschine, Google-Crawler, Duplikat-Inhalte

Warum werden Seiten von Google, die Seiten crawlen, von meiner robots.txt blockiert? - SEO, Suchmaschine, Google-Crawler, Duplicate-Content

Ich habe eine "doppelte" Frage zur Anzahl der von Google gecrawlten Seiten. Möglicherweise bezieht sie sich auf möglicherweise doppelten Inhalt (oder nicht) und auf SEO.

Informationen zu meiner Anzahl von Seiten und von Google durchforsteten Seiten

Ich habe vor zwei Monaten eine neue Website gestartet. Heute hat es fast 150 Seiten (es werden täglich mehr). Dies ist die Anzahl der Seiten in meiner Sitemap.

Wenn ich im Google-Webmaster unter "Crawl-Statistiken" nachschaue, kann ich feststellen, dass die Anzahl der täglich von Google durchforsteten Seiten viel größer ist (siehe Abbildung unten). Google hat an einem Tag bis zu 903 Seiten gecrawlt

Ich bin nicht sicher, ob es wirklich gut ist, weil es nicht nur meinen Server ein wenig beschäftigter macht (5,6 MB Download für 903 Seiten pro Tag), aber ich habe Angst, er macht auch doppelten Inhalt.

Ich habe bei Google (Site: MySite) nachgesehen.com) und es gibt mir 1290 Seiten (aber nur 191 werden angezeigt, wenn ich nicht auf "Wiederholen Sie die Suche mit den ausgelassenen Ergebnissen" klicken.) Nehmen wir an, die 191 sind die in meiner Sitemap (Ich denke, ich habe ein Problem mit doppeltem Inhalt von rund 40 Seiten, aber ich aktualisiere einfach die Website dafür).

Fakten zu meiner robots.txt

Ich verwende eine robots.txt-Datei, um zu verhindern, dass alle Crawler-Engines zu Seiten mit Parametern (siehe Roboter unten) und auch zu "Tags" gehen.

User-Agent: *
Disallow: /administrator
Disallow: *?s
Disallow: *?r
Disallow: *?c
Disallow: *?viewmode
Disallow: */tags/*
Disallow: *?page=1
Disallow: */user/*

Das wichtigste sind Tags. Sie sind in meiner URL wie folgt:

www.mysite.com/tags/Advertising/writing

Es wird von "robots.txt" blockiert (ich habe es bei Google Webmaster überprüft), ist aber in der Google-Suche noch vorhanden (Sie müssen jedoch auf "Wiederholen der Suche mit den ausgelassenen Ergebnissen" klicken)

Ich möchte nicht, dass diese Seiten gecrawlt werden, da es sich um doppelten Inhalt handelt (es ist eine Art Suche nach einem Stichwort). Deshalb habe ich sie in robots.txt eingefügt

Zum Schluss sind meine Fragen:

Warum crawlt Google die Seiten, die ich in robots.txt blockiert habe?

Warum indiziert Google Seiten, die ich blockiert habe? Werden diese Seiten von Google als doppelter Inhalt betrachtet? Wenn ja, ist es schlecht für SEO.

BEARBEITEN: Ich frage NICHT, wie ich die in Google indizierten Seiten entfernen kann (die Antwort ist mir bereits bekannt).

Antworten:

1 für die Antwort № 1

Warum crawlt Google die Seiten, die ich in robots.txt blockiert habe? Warum indexiert Google Seiten, die ich blockiert habe?

Sie haben es möglicherweise gekrochen, bevor Sie es blockiert haben. Sie müssen warten, bis sie Ihre aktualisierte robots.txt-Datei gelesen haben, und dann ihren Index entsprechend aktualisieren. Es gibt keinen festen Zeitplan dafür, aber für neuere Websites ist er normalerweise länger.

Werden diese Seiten als doppelter Inhalt betrachtet?

Du erzählst uns. Doppelter Inhalt ist, wenn zwei Seiten auf zwei oder mehr Seiten identischen oder nahezu identischen Inhalt haben. Geschieht das auf deiner Seite?

Das Blockieren doppelter Inhalte ist nicht der Weg, um dieses Problem zu lösen. Sie sollten verwenden kanonische URLs. Wenn Sie Seiten blockieren, bedeutet das, dass Sie auf Ihrer Website mit "schwarzen Löchern" verknüpfen, was Ihre SEO-Bemühungen beeinträchtigt Alle Links zu allen duplizierten Seiten.