/ / Como permitir que os rastreadores acessem apenas o index.php, usando o robots.txt? - seo, rastreador da web, robots.txt

Como permitir que os rastreadores acessem somente o index.php, usando o robots.txt? - seo, rastreador da Web, robots.txt

Se eu quiser permitir apenas que os rastreadores acessem index.php, isso funcionará?

User-agent: *
Disallow: /
Allow: /index.php

Respostas:

20 para resposta № 1

Sim, vai funcionar. Aqui está o resultado do teste do Ferramenta para webmasters do Google.

Url
http://www.example.org/index.php

Googlebot
Allowed by line 3: Allow: /index.php

Googlebot-Mobile
Allowed by line 3: Allow: /index.php

No entanto, lembre-se de que, com essa configuração, a página inicial do site não será rastreada, a menos que a página seja acessada com o caminho completo qualificado. Em outras palavras, http://www.example.org/ é proibido enquanto http://www.example.org/index.php é permitido.

Se você quiser que sua homepage seja acessível, aqui está uma versão melhorada do seu arquivo.

User-agent: *
Disallow: /
Allow: /index.php
Allow: /$

3 para resposta № 2
User-agent: *

Allow: /index.php
Disallow: /

2 para resposta № 3

Tente trocar a ordem de Disallow / Allow:

User-agent: *
Allow: /index.php
Disallow: /

Veja esta informação da wikipedia:

"Ainda assim, para ser compatível com todos robôs, sevocê quer permitir único arquivos dentro de uma outra forma não permitida diretório, você precisa colocar o diretiva (s) primeiro, seguida da Não permitir, por exemplo: "

http://en.wikipedia.org/wiki/Robots.txt

Ainda não esperava que funcionasse de forma consistente demais


1 para resposta № 4

Você pode usar o Ferramenta Google Robots check-out. Eu nunca colocaria nenhum diretório secreto no arquivo do robô, como eu diria que uma linha como a de baixo seria como mel para certas aranhas.

Disallow: /secret

1 para resposta № 5
User-agent: *
Allow: /$
Allow: /index.php
Allow: /sitemap.xml
Allow: /robots.txt
Disallow: /

Sitemap: http://www.your-site-name.com/sitemap.xml