/ / ¿Cómo crear un script que envíe URL y lea los datos de la página resultante? [cerrado] - web

¿Cómo crear un script que envíe URLs y lea datos de la página resultante? [cerrado] - web

Soy muy nuevo en esto, la primera vez que escribotipo de script relacionado con la web. Estoy intentando crear un script que envía una URL variable en el navegador y luego lee los datos de un elemento DOM específico de la página resultante.

Básicamente, tengo una gran lista de palabras. Quiero automatizar el proceso de ir a las URL que terminan en cada palabra (por ejemplo, si mi lista fuera ["apple", "banana", "zanahoria", y mi URL base era www.example.com, quiero vaya a www.example.com/apple, www.example.com/banana, www.example.com/carrot). Luego, en cada página, conozco el elemento DOM específico del que quiero leer los datos y luego me los devuelvo.

¿Cómo voy a hacer esto? Cualquier puntero en la dirección correcta sería genial! Gracias por adelantado :)

Respuestas

0 para la respuesta № 1

Yo sugeriría usar Python, usando el biblioteca urllib2 para recuperar páginas HTML y luego usar el Biblioteca LXML para analizarlos Luego, extraer el contenido de un elemento DOM específico conocido es tan simple como:

import lxml.html
from lxml import etree
import urllib2
response = urllib2.urlopen("http://example.com/abc/123")
html_text = response.read()
parsed = lxml.html.document_fromstring(html_text)
result = parsed.xpath("/html/body/some/element/path")
print result.text

Para otros tipos de extracción de datos (atributos, etc.) vea la documentación de LXML; Es muy fácil de usar.