/ / wget "mirroring" pdf vinculado a diferentes dominios - javascript, regex, url, download, wget

wget "mirroring" pdf vinculado a diferentes dominios - javascript, regex, url, descarga, wget

Página web contiene una enlace a un pdf (note los diferentes dominios).

Puedo usar wget para descargar directamente el pdf, peroParece que no se pueden identificar las opciones correctas de la línea de comandos de wget para "reflejar" la página web, incluido este pdf vinculado. Traté de usar combinaciones de opciones como

  • -pag
  • --span-hosts
  • -RE
  • --aceptar

sin éxito

¿Se puede usar wget (o alguna otra herramienta de línea de comandos) para descargar archivos PDF-s vinculados?

Gracias

Respuestas

1 para la respuesta № 1

Intenta analizar http://www.yowconference.com.au/brisbane/data/35.js. (Encontré esta URL con HttpFox). Después de formatear el código (por ejemplo, con http://jsbeautifier.org/) es fácil grep la url de los archivos pdf.


0 para la respuesta № 2

Si bien el enlace del pdf se muestra en los navegadores, la fuente de la página no contiene el enlace de descarga. Asi que wget no puede ver / seguir el enlace, ya que no "procesa" realmente la página.