Soy muy nuevo en esto, la primera vez que escribotipo de script relacionado con la web. Estoy intentando crear un script que envía una URL variable en el navegador y luego lee los datos de un elemento DOM específico de la página resultante.
Básicamente, tengo una gran lista de palabras. Quiero automatizar el proceso de ir a las URL que terminan en cada palabra (por ejemplo, si mi lista fuera ["apple", "banana", "zanahoria", y mi URL base era www.example.com, quiero vaya a www.example.com/apple, www.example.com/banana, www.example.com/carrot). Luego, en cada página, conozco el elemento DOM específico del que quiero leer los datos y luego me los devuelvo.
¿Cómo voy a hacer esto? Cualquier puntero en la dirección correcta sería genial! Gracias por adelantado :)
Respuestas
0 para la respuesta № 1Yo sugeriría usar Python, usando el biblioteca urllib2 para recuperar páginas HTML y luego usar el Biblioteca LXML para analizarlos Luego, extraer el contenido de un elemento DOM específico conocido es tan simple como:
import lxml.html
from lxml import etree
import urllib2
response = urllib2.urlopen("http://example.com/abc/123")
html_text = response.read()
parsed = lxml.html.document_fromstring(html_text)
result = parsed.xpath("/html/body/some/element/path")
print result.text
Para otros tipos de extracción de datos (atributos, etc.) vea la documentación de LXML; Es muy fácil de usar.