/ / Sites de raspagem com atraso na tela javascript [fechado] - javascript, python, raspagem de tela, raspagem na web, raspador

Raspando sites com atraso de tela javascript [fechado] - javascript, python, screen-scraping, web-scraping, scraper

Estou tentando raspar um site com um atraso de javascript de uma fração de segundo.

Atualmente, estou usando python para raspagem. Sempre que eu "recebo" a página, o atraso do javascript não foi concluído e ainda não carregou completamente o novo dom.

Como eu rasparia tal pge?

Respostas:

1 para resposta № 1

Uma maneira confiável é raspá-lo através de um navegador da web ou controle do navegador da webe. g. com os i-macros comandos de raspagem. Funciona também via Python / Linux.

Você também pode codificar isso por meio do controle de navegador da web no Windows: http://www.codeproject.com/KB/cs/webbrowser.aspx


1 para resposta № 2

Você pode estender o Mozilla para criar um raspador da webque pode aproveitar todo o poder do navegador da web. Depois que todos os dados foram carregados e o DOM foi construído, você pode extrair os dados necessários do DOM usando XSLT. Se o DOM foi alterado dinamicamente após o carregamento inicial, você pode adotar algumas abordagens para aguardar as alterações. Visita http://www.gooseeker.com Para maiores informações. O GooSeeker publica uma ferramenta similar gratuita para todos. A maioria dos códigos está em javascript e legível, a partir da qual você pode encontrar como ele é executado.