/ / Web-Crawling-Tools, die die Interaktion mit Ziel-Websites vor dem Crawlen unterstützen - web-crawler, nutch

Web-Crawling-Tools, die die Interaktion mit Ziel-Websites vor dem Crawlen unterstützen - web-crawler, nutch

Ich bin auf der Suche nach einem Crawler, der in der Lage istSeiten mit Ajax zu bearbeiten und bestimmte Benutzerinteraktionen mit der Zielseite durchzuführen, bevor mit dem Crawlen der Seite begonnen wird (zB Klicken auf bestimmte Menüpunkte, Ausfüllen einiger Formulare, etc ...) Ich habe versucht, webdriver / selen (was wirklich ist) Web-Scraping-Tools) und jetzt möchte ich wissen, ob es einen Crawler gibt, der das Emulieren bestimmter Benutzerinteraktionen vor dem Crawlen unterstützt? (In Java oder Python oder Ruby ...)

Vielen Dank

ps - Kann nutch das machen? Wenn ja, schätze ich jeden Link, der dies beschreibt.

Antworten:

1 für die Antwort № 1

Nutch behandelt keine AJAX, Cookies oder andere von Ihnen beschriebene Benutzerinteraktionen.


0 für die Antwort № 2

Sie könnten Selen mit einem Python-basierten Crawler verbinden Scrapy . Wann immer AJAX gehandhabt werden muss, wird ein externer Prozess zum Abschaben mit Selen ausgelöst.