Dies ist mein Code bisher:
import urllib2
with urllib2.urlopen("https://quora.com") as response:
html = response.read()
Ich bin neu in Python und irgendwie ist es mir gelungen, die Webseite abzurufen. Wie kann ich nun IDs und Klassen von der Webseite extrahieren?
Antworten:
0 für die Antwort № 1Sie können versuchen, den HTML-Code mit dedizierten Bibliotheken zu analysieren, z.
0 für die Antwort № 2
Ein besserer Weg wäre die Verwendung der BeautifulSoup (bs4) Web-Scraping-Bibliothek und -Anfragen.
Nachdem Sie beide mit pip installiert haben, können Sie wie folgt starten:
import requests
from bs4 import BeautifulSoup
r = requests.get("http://quora.com")
soup = BeautifulSoup(r.content, "html.parser")
So finden Sie ein Element mit einer bestimmten ID:
soup.find(id="your_id")
So finden Sie alle Elemente mit der Klasse "Antwort":
soup.find_all(class_="Answer")
Sie können dann verwenden .get_text()
Entfernen Sie die HTML-Tags und verwenden Sie Python-Zeichenfolgenoperationen zum Organisieren Ihrer Daten.
0 für die Antwort № 3
Sie können dies ganz einfach durch XML-Analyse tun
from lxml import html
import requests
page = requests.get("http://google.com")
with open("/home/Desktop/test.txt","wb") as f :
f.write(page.content)