Aiuto nella programmazione, risposte alle domande / Web crawler / Come posso evitare gli URL di scansione che "fanno" cose come annullare l'iscrizione di una persona da una mailing list - web crawler

Come posso evitare la scansione di URL che "fanno" cose come l'annullamento dell'iscrizione di una persona da una mailing list - web-crawler

Sto scrivendo uno strumento che esegue la scansione degli URL nelle e-mail cosìun utente può effettuare ricerche mirate. c'è un modo per dire a un URL visitato che siamo un crawler in modo tale che l'utente non venga sottoscritto o cancellato da una mailing list o che non sia probabile che vengano intraprese altre azioni nell'URL.

Altrimenti, c'è un modo intelligente per scoprire in generale che un URL deve essere visitato solo da un essere umano che desidera intraprendere qualche azione?

risposte:

1 per risposta № 1

Un modo che sarebbe comunque utile sarebbe obbedire a qualsiasi file robots.txt disponibile nella radice del sito.

L'autore del sito dovrebbe avere questa configurazione in modo che qualsiasi crawler stia lontano dalle aree in cui non vuole che vadano.

Stewart.

0 per risposta № 2

In generale, no.

"Non c'è modo di dedurre in modo affidabile se un determinato URL" faccia "qualcosa in particolare (suppongo che potresti cercare schemi, ad esempio" annullare l'iscrizione ", ma difficilmente sarebbe affidabile).

E non c'è nessun "magico" flag "I a m robot" che puoi impostare quando fai le richieste HTTP.

domande correlate

come fa un web crawler a scoprire una pagina? - web, crawler web

Posso configurare Storm Crawler per aggiungere l'url dell'host alla prima della rotta url durante la scansione? - web-crawler, elasticsearch-5, stormcrawler

Qual è una buona velocità di scansione? - python, scrapy, web-crawler

I bot sono diversi dai crawler dal punto di vista di Python Django - python, django, web-crawler, scrapy, bot

pianificazione python - Come posso evitare il ciclo infinito? - Python, attività pianificate

Esecuzione di più crawler in Scrapy in sequenza: python, scrapy, web-crawler, screen-scraping

Come impedire a un sito Web di eseguire la scansione del mio sito senza conoscere il loro indirizzo IP: php, .htaccess, web-crawler, robots.txt

crawler php - come affrontare gli URL con JSESSIONID - php, url, web-crawler, jsessionid

node.js perché ottengo RangeError: superata la dimensione massima dello stack delle chiamate: node.js, web-crawler, out-of-memory, html-to-text

Selenium Webdriver Web crawler - java, selenio, selenio-webdriver

Errore nell'esecuzione di Apache nutch-2.2.1 - java, apache, hadoop, nutch

I web crawler concorrenti in genere archiviano gli URL visitati in una mappa concorrente o utilizzano la sincronizzazione per evitare di eseguire la scansione delle stesse pagine due volte? - java, python, multithreading, concorrenza, web-crawler

Espressione regolare per filtrare gli URL che hanno più di una e commerciale "&" - java, regex, nutch

Architettura più veloce per crawler web con multithreading: java, multithreading, web-crawler

Come ottenere un file html individuale da "segmenti" che ho ricevuto dopo crwal in nutch? - java, linux, indicizzazione, web-crawler, nutch

Semplice web crawler in Java - multi-threaded ma lento :) - java, multithreading, web-crawler

Ha senso usare Google DataFlow / ApacheBeam per parallelizzare l'elaborazione delle immagini o le attività di scansione? - google-cloud-platform, google-cloud-dataflow, azure-data-factory, amazon-data-pipeline, apache-beam

come creare SQL Update nel database del crawler in OpenSearchServer 1.4 - database, ricerca, web-crawler, server

Apache Nutch crawler come escludere cartelle statiche come; cgi-bin, immagini, css escludono dal crawl nutch? - apache, hadoop, lucene, mapreduce, nutch

Google indicizzerà "www.example.com/#!hash"? [chiuso] - ajax, web-crawler, googlebot