/ / Scraping di siti con ritardo dello schermo javascript [chiuso] - javascript, python, screen-scraping, web scraping, scraper

Scraping siti con ritardo dello schermo javascript [chiuso] - javascript, python, screen-scraping, web-scraping, raschietto

Sto tentando di eliminare un sito con un ritardo javascript di una frazione di secondo.

Attualmente sto usando Python per raschiare. Ogni volta che "ottengo" la pagina, il ritardo javascript non è terminato e non ha ancora caricato completamente il nuovo dom.

Come potrei raschiare una tale pge?

risposte:

1 per risposta № 1

Un modo affidabile è quello di raschiarlo tramite a browser web o controllo browser web, e. g. con i-Macros comandi di raschiatura. Funziona anche tramite Python / Linux.

Puoi anche codificarlo tu stesso tramite il controllo webbrowser su Windows: http://www.codeproject.com/KB/cs/webbrowser.aspx


1 per risposta № 2

Puoi estendere Mozilla per creare un raschietto webche può sfruttare tutta la potenza del browser web. Dopo che tutti i dati sono stati caricati e il DOM è stato creato, è possibile estrarre i dati necessari dal DOM utilizzando XSLT. Se il DOM è stato modificato in modo dinamico dopo il caricamento iniziale, è possibile adottare alcuni approcci per attendere le modifiche. Visita http://www.gooseeker.com per maggiori informazioni. GooSeeker pubblica uno strumento simile gratuito per tutti. La maggior parte dei codici sono in javascript e leggibili, da cui è possibile trovare come funziona.