/ / Використання robots.txt для блокування /? Param = X - wordpress, пошукова машина, robots.txt

Використання robots.txt для блокування /? Param = X - wordpress, пошуковий движок, robots.txt

Я створив веб-сайт за допомогою wordpress, і перший день він був сповнений фіктивного вмісту, поки я не завантажив свій. Індексовані сторінки Google, такі як:

www.url.com/?cat=1

Тепер цих сторінок не існує, і щоб зробити Google запит на видалення, попросіть мене заблокувати їх на robots.txt

Чи варто використовувати:

User-Agent: *
Disallow: /?cat=

або

User-Agent: *
Disallow: /?cat=*

Мій файл robots.txt виглядатиме приблизно так:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /author
Disallow: /?cat=
Sitemap: http://url.com/sitemap.xml.gz

Це добре виглядає чи це може спричинити проблеми з пошуковими системами? Чи повинен я використовувати Allow: / разом з усіма Disallow:?

Відповіді:

2 для відповіді № 1

Я б з цим фактично пішов

Щоб заблокувати доступ до всіх таких URL-адрес включити aзнак питання (?) (докладніше конкретно, будь-яка URL-адреса, яка починається з ваше доменне ім’я, за яким слід будь-яке рядок з наступним знаком питання, з наступним будь-яким рядком):

User-agent: Googlebot
Disallow: /*?

Тож я б насправді пішов:

User-agent: Googlebot
Disallow: /*?cat=

Ресурс (Під паттерн)


0 для відповіді № 2

Загалом, слід ні використовувати роботів.txt директиви для обробки видаленого вмісту. Якщо пошукова система не може її сканувати, вона не може сказати, видалено чи ні, і може продовжувати індексувати (або навіть починати індексувати) ці URL-адреси. Правильне рішення - переконатися, що ваш сайт повертає 404 (або 410) код результатів HTTP для цих URL-адрес, вони з часом автоматично випадуть.

Якщо ви хочете скористатися терміном Google Інструменти для видалення URL-адрес, вам доведеться в будь-якому разі надсилати ці URL-адреси окремо, так що ви нічого не отримаєте, використовуючи заборонений robots.txt.


0 для відповіді № 3

Якщо пошукова система не може її сканувати, вона не може сказати, видалено чи ні, і може продовжувати індексувати (або навіть починати індексувати) ці URL-адреси.