/ / Sitios de raspado con retardo de pantalla de javascript [cerrado] - javascript, python, raspado de pantalla, raspado web, raspador

Raspado de sitios con la demora de la pantalla javascript [cerrado] - javascript, python, raspado de la pantalla, raspado de la web, raspador

Estoy intentando raspar un sitio que tiene un retraso de javascript de una fracción de segundo.

Actualmente estoy usando python para raspar. Siempre que "obtengo" la página, el retraso de javascript no se ha completado y aún no se ha cargado completamente el nuevo dom.

¿Cómo rasparía una pge?

Respuestas

1 para la respuesta № 1

Una forma fiable es rasparlo a través de un navegador web o control del navegador webe. sol. con los i-macros comandos de raspado. Funciona también a través de Python / Linux.

También puede codificar esto usted mismo a través del control del navegador web en Windows: http://www.codeproject.com/KB/cs/webbrowser.aspx


1 para la respuesta № 2

Puede ampliar Mozilla para construir un raspador webQue puede aprovechar toda la potencia del navegador web. Una vez que se hayan cargado todos los datos y se haya creado el DOM, puede extraer los datos necesarios del DOM utilizando XSLT. Si el DOM se cambió dinámicamente después de la carga inicial, puede tomar algunos métodos para esperar los cambios. Visitar http://www.gooseeker.com para más información. GooSeeker publica una herramienta similar gratuita para todos. La mayoría de los códigos están en javascript y son legibles, desde donde puedes encontrar cómo se ejecuta.