J'ai des problèmes avec un site Web sur lequel je travaille. J'ai initialement mis en place un robots.txt
fichier pour empêcher les robots de l’indexer pendant que je travaillais dessus. Cependant maintenant sa vie et la robots.txt
Le fichier a été supprimé, mais il n'a toujours pas été exploré et indique que l'accès des robots est interdit. Même en l'absence d'un robots.txt
fichier. Le site est un site web basé sur wordpress - tout semble suggérer qu'il ne devrait y avoir aucun blocage pour les robots d'exploration.
Qu'est-ce qui pourrait être faux ici?
Réponses:
1 pour la réponse № 1Plutôt que de ne pas utiliser de fichier robots.txt, utilisez des robots.fichier txt qui permet spécifiquement l'exploration de votre contenu. Ainsi, les araignées des moteurs de recherche ne penseront pas que vous venez de supprimer accidentellement le fichier par erreur.
User-agent: *
Disallow:
pour permettre spécifiquement l'exploration de tout ou
User-agent: *
Disallow: /admin
interdire uniquement un répertoire d'administrateur
0 pour la réponse № 2
J'ai eu un problème similaire, probablement cela pourrait êtrece qui vous manque .. Même si les robots ne sont pas autorisés à indexer votre site dans une certaine mesure, vous ne pouvez pas arrêter de nombreux scripts disponibles. Par exemple, lors de l'appel de la page si les robots agissent comme s'ils utilisaient un navigateur d'agent, ils peuvent alors indexer votre page sans que vous le sachiez.
Ex, imaginez un navigateur appelé navigateur magique et le code suivant utilisé par un bot urllib2.Request (url, headers = {"User-Agent": "Magic Browser"})
//python
Cela ne serait même pas important si robots.txt était posté ou non.
0 pour la réponse № 3
Inscrivez-vous et vérifiez votre statut avec Google WebMaster Tools.
Vous saurez tout là-bas