/ / Impedir a indexação de subdiretórios do domínio pai - seo, robots.txt

Impedir a indexação de subdiretórios do domínio pai - seo, robots.txt

Diga meu site children.com (que eu quero indexado) também é acessível via http://mother.com/children/ (que eu não quero indexado).

Exemplo de hierarquia: / home / username / mother: http://mother.com | _ crianças: http://www.children.com

O que eu colocaria no meu arquivo mother.com/robots.txt para evitar que o conteúdo em children.com e todos os subdiretórios de children.com sejam indexados como pertencentes a mother.com?

Obrigado por qualquer sugestão

Respostas:

0 para resposta № 1

Eu resolvi minha própria pergunta e confirmei através de um analisador de phpwebby robots.txt ... Eu coloquei o seguinte código no arquivo mother.com/robots.txt:

User-agent: Googlebot
Disallow: /
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent: Jeeves
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: Yahoo-MMCrawler
Disallow: /
User-agent: msnbot
Disallow: /
User-agent: psbot
Disallow: /
User-agent: *
Disallow: /

E adicionei o seguinte ao meu arquivo robots.txt chilren.com.

User-agent: *
#block indexing of email and print pages -------
Disallow: /*~email.shtml
Disallow: /*~print.shtml
Sitemap: http://www.children.com/sitemap_index.xml

Claro que eu triplo verificado para ter certeza (usandoo analisador de arquivos robots.txt) que vários subdiretórios não eram acessíveis através do domínio mother.com e que eles eram indexáveis ​​pelo domínio children.com.

Nota: Apenas usando os domínios mother.com e children.com como exemplos.


0 para resposta № 2

Você provavelmente não quer usar o robots.txt. Mas use uma combinação do meta tag de robôs e tags canônicas.

Em toda a mãe.com / children pages, adicione a tag meta robots com um valor "noindex". Embora o mecanismo de pesquisa possa rastrear a página, ela não adicionará essas páginas ao índice. Agora, isso ainda pode criar alguma confusão quanto à localização autoritativa do conteúdo.

Então você vai querer usar um domínio cruzado canônicotag para informar os principais mecanismos de busca onde o conteúdo autoritário reside. Então, você adicionará uma tag canônica nas páginas de mother.com/children e dará a elas valores em children.com. Você vai querer ter certeza de que, se for uma página específica, você pode canalizá-la para o mesmo conteúdo em crianças. .com, porque a tag canônica é apenas para conteúdo idêntico.