/ / Wie erstelle ich ein Skript, das URLs übermittelt und Daten von der resultierenden Seite liest? [geschlossen] - web

Wie erstellt man ein Skript, das URLs übermittelt und Daten von der resultierenden Seite liest? [geschlossen] - Web

Ich bin sehr neu dabei - mein erstes MalArt von webbezogenem Skript. Ich versuche, ein Skript zu erstellen, das eine variable URL im Browser übermittelt und dann Daten aus einem bestimmten DOM-Element der resultierenden Seite liest.

Grundsätzlich habe ich eine riesige Liste von Wörtern. Ich möchte den Vorgang automatisieren, zu URLs zu gelangen, die in jedem Wort enden (z. B. wenn meine Liste ["Apfel", "Banane", "Karotte"]) wäre und meine Basis-URL www.example.com wäre Gehen Sie zu www.example.com/apple, www.example.com/banana, www.example.com/carrot). Dann kenne ich auf jeder Seite das spezifische DOM-Element, von dem ich Daten lesen möchte, und gibt es an mich zurück.

Wie würde ich das machen? Alle Hinweise in die richtige Richtung wären toll! Danke im Voraus :)

Antworten:

0 für die Antwort № 1

Ich würde vorschlagen, Python zu verwenden, die urllib2-Bibliothek HTML-Seiten abrufen und dann die LXML-Bibliothek um sie zu analysieren Das Extrahieren des Inhalts eines bestimmten bekannten DOM-Elements ist so einfach:

import lxml.html
from lxml import etree
import urllib2
response = urllib2.urlopen("http://example.com/abc/123")
html_text = response.read()
parsed = lxml.html.document_fromstring(html_text)
result = parsed.xpath("/html/body/some/element/path")
print result.text

Informationen zu anderen Arten der Datenextraktion (Attribute usw.) finden Sie in der LXML-Dokumentation. es ist ziemlich einfach zu bedienen.