Hilfe bei der Programmierung, Antworten auf Fragen / Html / Verhindern, dass HTML-Seiten von Bot / Crawler gecrawlt und zwischengespeichert werden - HTML, CSS

Verhindern, dass die HTML-Seite von Bot / Crawler gecrawlt und zwischengespeichert wird - html, css

Gibt es eine Möglichkeit zu verhindern, dass Webcrawler meine öffentlich zugängliche Webanwendungswebsite crawlen und im Cache speichern?

Vielen Dank.

Antworten:

3 für die Antwort № 1

Sie können verwenden Robots.txt:

User-agent: *
Disallow: /

Aber es ist nicht 100% zuverlässig, nicht alle Crawler werden dies respektieren.

Nach dem, was ich kürzlich erfahren habe, ist der einzige 100% zuverlässige Weg, alle Ihre Seiten sicher zu machen.

2 für die Antwort № 2

Robots.txt (wie bereits vorgeschlagen) verhindert das Crawlen. Wenn Sie nur das Zwischenspeichern verhindern möchten, fügen Sie Ihrem Abschnitt <head> den folgenden HTML-Code hinzu:

<META NAME="ROBOTS" CONTENT="NOARCHIVE" />

1 für die Antwort № 3

Ja, Erstellen Sie eine robots.txt-Datei im Stammverzeichnis Ihrer Website. Es gibt viele andere interessante Tutorials um.

1 für die Antwort № 4

Eine übliche Möglichkeit, Suchmaschinen wie Google usw. zu stoppen, besteht darin, eine ROBOTS.TXT-Datei in das Stammverzeichnis Ihrer Website aufzunehmen.

Hier ist ein guter Artikel zu diesem Thema http://www.javascriptkit.com/howto/robots.shtml

1 für die Antwort № 5

Stoppen Sie die Crawler

Verwandte Fragen

Wie entdeckt ein Webcrawler eine Seite? - Web, Web-Crawler

Woher bekommen Web-Crawler ihre Liste der zu crawlenden Seiten? - Web-Crawler

Prestashop "in den Warenkorb" besucht von Crawler? - Web-Crawler, E-Commerce, Prestashop, Prestashop-1.6

Crawler vs Scraper - Web-Crawler, Terminologie, Schaber

Das Crawlen verlangsamt sich drastisch gegen Ende - Python, Leistung, Scrapy, Web-Crawler, Durchsatz

scrapy: Wie überspringe ich die URLs, die nicht antworten? - Python-2.7, Scrapy

WebTestCase: Benutze den Crawler, um eine Zeichenkette zu testen - PHP, Testing, Symfony, Funktionstest, Web-Crawler

php crawler - Wie man URLs mit JSESSIONID anpackt - php, url, web-crawler, jsessionid

nutch crawl verwendet nicht alle Einträge in seed.txt - nutch, web-crawler

node.js warum bekomme ich RangeError: Maximale Aufruf-Stack-Größe überschritten - node.js, Web-Crawler, nicht genügend Arbeitsspeicher, HTML-to-Text

Wie man sich mit goutte in laravel in facebook anmeldet - laravel-5.2, goutte

Wie konfiguriert man heritrix, um alle gefundenen URLs zu protokollieren, einschließlich derjenigen, die gefiltert / nicht gecrawlt werden? - Java

Nutch: Holen Sie sich die URL jeder URL - Java, Nutch, Web-Crawler

Wie bekomme ich eine individuelle HTML-Datei von "Segmenten", die ich nach crwal in nutch bekommen habe? - Java, Linux, Indizierung, Web-Crawler, Nutch

Simple Web Crawler in Java - Multi-Threaded aber langsam :) - Java, Multithreading, Web-Crawler

CSV-Datei kann nicht geschrieben werden - Javascript, Arrays, node.js, csv

geben Sie einem Crawler reines HTML, im Gegensatz zu ajax - html, ajax, web-crawler

c # web-basierter Crawler - c #, Web-Crawler, Bots, Googlebot

Web Crawler - Objekt nicht gefunden [Duplikat] - c #, asp.net, Web-Crawler, HTML-Agility-Pack

HBase Nutch Fehler [Ljava.lang.StackTraceElement - Apache, HBase, Web-Crawler, Nutch