/ / Wie kann ich das Crawlen von URLs vermeiden, die Dinge wie das Abbestellen einer Person aus einer Mailing-Liste - Web-Crawler - "erledigen"

Wie kann ich das Crawlen von URLs verhindern, die Dinge wie das Abbestellen einer Person aus einer Mailingliste - Web-Crawler - "erledigen"?

Ich schreibe ein Tool, das URLs so in E-Mails kriechtEin Benutzer kann gezielte Suchen durchführen. Gibt es eine Möglichkeit, einer besuchten URL mitzuteilen, dass wir ein Crawler sind, damit der Benutzer nicht von einer Mailing-Liste abonniert oder abgemeldet wird oder dass andere Aktionen in der URL wahrscheinlich nicht ausgeführt werden.

Gibt es sonst eine clevere Möglichkeit, allgemein zu entdecken, dass eine URL nur von einem Menschen besucht werden soll, der etwas unternehmen möchte?

Antworten:

1 für die Antwort № 1

Ein Weg, der sowieso helfen würde, wäre, eine robots.txt-Datei zu befolgen, die im Stammverzeichnis der Site verfügbar ist.

Der Site-Autor sollte diese Einstellung haben, damit jeder Crawler von Bereichen fernbleibt, die er nicht sehen möchte.

Stewart.


0 für die Antwort № 2

Im Allgemeinen, nein.

Es gibt keine Möglichkeit, zuverlässig abzuleiten, ob eine bestimmte URL "irgendetwas" "tut" (ich denke, Sie könnten nach Mustern wie "Abbestellen" suchen, aber das wäre kaum verlässlich).

Und es gibt keine magische "Ich bin ein Roboter" -Flag, das Sie bei den HTTP-Anfragen einstellen können.