/ / Чому сканування сторінок Google блокується моїм роботом.txt? - seo, пошукова система, google-сканери, дублікат контенту

Чому Google сканує сторінки, заблоковані моїм robots.txt? - SEO, пошуковий механізм, Google-сканери, дублікат вмісту

У мене є "подвійне" запитання щодо кількості сторінок, які переглядає Google, і це, можливо, пов'язане з можливим повторюваним вмістом (чи ні) та впливає на SEO.

Факти з моєї кількості сторінок і сторінок, які сканують Google

Я запустив новий веб-сайт два місяці тому. Сьогодні це близько 150 сторінок (він збільшується з кожним днем). Це кількість сторінок у моїй мапі сайту.

Якщо я заглянув у "Статистика сканування" веб-майстра Google, я можу побачити, що кількість сторінок, які сканує Google щодня, значно більша (див. Зображення нижче). Google переповзав до 903 сторінки за день

Я не впевнений, що це добре, адже це не лише робить мій сервер трохи зайнятішим (5,6 МБ завантаження на 903 сторінки в день), але я боюся, що він також створює деякий дублікат контенту.

Я перевірив в Google (сайт: mysite.com), і це дає мені 1290 сторінок (але показано лише 191, якщо я не натискаю "повторити пошук із включеними пропущеними результатами". Давайте припустимо, що 191 - це ті, що містяться в моїй мапі (я думаю, що у мене проблема дублювання вмісту приблизно 40 сторінок, але я просто оновлюю веб-сайт для цього).

Факти в моєму robots.txt

Я використовую файл robots.txt, щоб заборонити всім системам сканування переходити на сторінки з параметрами (див. Роботи нижче), а також "Теги".

User-Agent: *
Disallow: /administrator
Disallow: *?s
Disallow: *?r
Disallow: *?c
Disallow: *?viewmode
Disallow: */tags/*
Disallow: *?page=1
Disallow: */user/*

Найважливіший - теги. Вони в моєму URL-адресі наступні:

www.mysite.com/tags/Advertising/writing

Він заблокований robots.txt (я перевіряв веб-майстра google), але він все ще присутній у пошуку Google (але вам потрібно натиснути "повторити пошук із включеними пропущеними результатами".)

Я не хочу сканувати ці сторінки, оскільки це дубльований вміст (це свого роду пошук за ключовим словом), тому я розміщую їх у robots.txt

Нарешті, мої запитання:

Чому Google сканує сторінки, які я заблокував у robots.txt?

Чому я заблокував сторінки індексації Google? Чи розглядаються Google такими сторінками як повторюваний вміст? Якщо так, я думаю, це погано для SEO.

EDIT: Я не запитую, як видалити сторінки, проіндексовані в Google (відповідь я вже знаю).

Відповіді:

1 для відповіді № 1

Чому Google сканує сторінки, які я заблокував у robots.txt? Чому google індексує сторінки, які я заблокував?

Можливо, вони проскакували перед тим, як ви заблокували його. Вам доведеться почекати, поки вони прочитають ваш оновлений файл robots.txt, а потім оновити індекс відповідно. Для цього немає встановленого графіку, але зазвичай це довше для нових веб-сайтів.

Чи вважаються ці сторінки повторюваним вмістом?

Ви нам кажете. Дубльований вміст - це коли дві сторінки мають однаковий або майже однаковий вміст на двох або більше сторінках. Це відбувається на вашому сайті?

Блокування повторюваного вмісту є ні спосіб вирішити цю проблему. Ви повинні використовувати канонічні URL-адреси. Блокування сторінок означає, що ви "посилаєтесь на" чорні діри "на своєму веб-сайті, що шкодить вашим зусиллям SEO. всі посилання також на всі дублювані сторінки.