Я створив веб-сайт за допомогою wordpress, і перший день він був сповнений фіктивного вмісту, поки я не завантажив свій. Індексовані сторінки Google, такі як:
www.url.com/?cat=1
Тепер цих сторінок не існує, і щоб зробити Google запит на видалення, попросіть мене заблокувати їх на robots.txt
Чи варто використовувати:
User-Agent: *
Disallow: /?cat=
або
User-Agent: *
Disallow: /?cat=*
Мій файл robots.txt виглядатиме приблизно так:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /author
Disallow: /?cat=
Sitemap: http://url.com/sitemap.xml.gz
Це добре виглядає чи це може спричинити проблеми з пошуковими системами? Чи повинен я використовувати Allow: / разом з усіма Disallow:?
Відповіді:
2 для відповіді № 1Я б з цим фактично пішов
Щоб заблокувати доступ до всіх таких URL-адрес включити aзнак питання (?) (докладніше конкретно, будь-яка URL-адреса, яка починається з ваше доменне ім’я, за яким слід будь-яке рядок з наступним знаком питання, з наступним будь-яким рядком):
User-agent: Googlebot
Disallow: /*?
Тож я б насправді пішов:
User-agent: Googlebot
Disallow: /*?cat=
0 для відповіді № 2
Загалом, слід ні використовувати роботів.txt директиви для обробки видаленого вмісту. Якщо пошукова система не може її сканувати, вона не може сказати, видалено чи ні, і може продовжувати індексувати (або навіть починати індексувати) ці URL-адреси. Правильне рішення - переконатися, що ваш сайт повертає 404 (або 410) код результатів HTTP для цих URL-адрес, вони з часом автоматично випадуть.
Якщо ви хочете скористатися терміном Google Інструменти для видалення URL-адрес, вам доведеться в будь-якому разі надсилати ці URL-адреси окремо, так що ви нічого не отримаєте, використовуючи заборонений robots.txt.
0 для відповіді № 3
Якщо пошукова система не може її сканувати, вона не може сказати, видалено чи ні, і може продовжувати індексувати (або навіть починати індексувати) ці URL-адреси.