Estou tentando raspar um site com um atraso de javascript de uma fração de segundo.
Atualmente, estou usando python para raspagem. Sempre que eu "recebo" a página, o atraso do javascript não foi concluído e ainda não carregou completamente o novo dom.
Como eu rasparia tal pge?
Respostas:
1 para resposta № 1Uma maneira confiável é raspá-lo através de um navegador da web ou controle do navegador da webe. g. com os i-macros comandos de raspagem. Funciona também via Python / Linux.
Você também pode codificar isso por meio do controle de navegador da web no Windows: http://www.codeproject.com/KB/cs/webbrowser.aspx
1 para resposta № 2
Você pode estender o Mozilla para criar um raspador da webque pode aproveitar todo o poder do navegador da web. Depois que todos os dados foram carregados e o DOM foi construído, você pode extrair os dados necessários do DOM usando XSLT. Se o DOM foi alterado dinamicamente após o carregamento inicial, você pode adotar algumas abordagens para aguardar as alterações. Visita http://www.gooseeker.com Para maiores informações. O GooSeeker publica uma ferramenta similar gratuita para todos. A maioria dos códigos está em javascript e legível, a partir da qual você pode encontrar como ele é executado.