Obecnie mój robots.txt
jest następujące
#Sitemaps
Sitemap: http://www.baopals.com.com/sitemap.xml
#Disallow select URLs
User-agent: *
Disallow: /admin/
Disallow: /products/
Moje produkty mają wiele duplikatów, jak jaściągnij dane z taobao.com i automatycznie przetłumacz je, co spowoduje powstanie wielu zduplikowanych i niskiej jakości nazw, dlatego po prostu odrzucam całość. Jednak ręcznie zmieniam tytuły niektórych produktów i ponownie zapisuję je w bazie danych i pokazuję na stronie głównej za pomocą odpowiednich tłumaczeń, które po prostu zostają zapisane /products/
i zostają utracone na zawsze, gdy usuwam je ze strony głównej.
Zastanawiam się, czy byłoby to możliweprodukty, które zapisuję na stronie głównej ze zaktualizowanymi tłumaczeniami, nadal są indeksowane przez google lub czy muszę zmienić katalog ręcznie aktualizowanych produktów?
Odpowiedzi:
0 dla odpowiedzi № 1Niektóre boty (w tym Googlebot) obsługują Allow
pole. Umożliwia to określenie ścieżek, które i tak powinny być indeksowane.
Więc musiałbyś dodać Allow
wiersz dla każdego produktu, który chcesz zaindeksować.
User-agent: *
Disallow: /admin/
Disallow: /products/
Allow: /products/foo-bar-1
Allow: /products/foo-foo-2
Allow: /products/bar-foo
Ale zamiast zabronić czołganie stron produktów, możesz chcieć odrzucić indeksowanie. Następnie bot nadal może odwiedzać Twoje strony i śledzić linki, ale nie doda stron do indeksu wyszukiwania.
Dodaj <meta name="robots" content="noindex" />
do każdej strony produktu (w head
) i usuń go (lub zmień na index
) dla każdej strony produktu, którą chcesz zindeksować. Istnieje również odpowiedni nagłówek HTTP, jeśli jest to łatwiejsze.