Estou tendo problemas com um site em que estou trabalhando. Inicialmente, montei um robots.txt
arquivo para impedir que os robôs indexem enquanto eu estava trabalhando nele. No entanto, agora a sua vida e a robots.txt
O arquivo foi excluído, mas ainda não foi rastreado e mostra que os robôs não têm acesso permitido. Mesmo na ausência de um robots.txt
Arquivo. O site é um site baseado em wordpress - tudo parece sugerir que não deve haver bloqueio para nenhum rastreador.
Oque pode estar errado aqui?
Respostas:
1 para resposta № 1Em vez de nenhum arquivo robots.txt, use robôs.arquivo txt que permite especificamente o rastreamento do seu conteúdo. Dessa forma, as aranhas dos mecanismos de pesquisa não acharão que você excluiu acidentalmente o arquivo por engano. Algo como:
User-agent: *
Disallow:
para permitir especificamente o rastreamento de tudo ou
User-agent: *
Disallow: /admin
proibir apenas um diretório administrativo
0 para resposta № 2
Eu tive um problema semelhante, provavelmente isso pode sero que você está perdendo .. Mesmo se os robôs estiverem restritos, em certa medida, à indexação do site, você não poderá interromper muitos scripts disponíveis. Por exemplo, ao chamar a página se os bots apresentarem como se eles estivessem usando um navegador de agente, eles poderão afetar o índice da página sem que você saiba.
Ex, imagine um navegador chamado navegador mágico e o código a seguir usado por um bot urllib2.Request (url, headers = {"User-Agent": "Navegador mágico"})
//Pitão
Isso nem se importa se o robots.txt foi publicado ou não.
0 para resposta № 3
Registre-se e confira seu status com as Ferramentas do Google WebMaster.
Você vai descobrir tudo lá