/ / Wie extrahiere ich IDs und Klassen von einer Webseite mit Python? - Python, HTML, Web-Scraping

Wie extrahiert man IDs und Klassen von einer Webseite mit Python? - Python, HTML, Web-Scraping

Dies ist mein Code bisher:

import urllib2
with urllib2.urlopen("https://quora.com") as response:
html = response.read()

Ich bin neu in Python und irgendwie ist es mir gelungen, die Webseite abzurufen. Wie kann ich nun IDs und Klassen von der Webseite extrahieren?

Antworten:

0 für die Antwort № 1

Sie können versuchen, den HTML-Code mit dedizierten Bibliotheken zu analysieren, z.


0 für die Antwort № 2

Ein besserer Weg wäre die Verwendung der BeautifulSoup (bs4) Web-Scraping-Bibliothek und -Anfragen.

Nachdem Sie beide mit pip installiert haben, können Sie wie folgt starten:

import requests
from bs4 import BeautifulSoup

r = requests.get("http://quora.com")
soup = BeautifulSoup(r.content, "html.parser")

So finden Sie ein Element mit einer bestimmten ID:

soup.find(id="your_id")

So finden Sie alle Elemente mit der Klasse "Antwort":

soup.find_all(class_="Answer")

Sie können dann verwenden .get_text() Entfernen Sie die HTML-Tags und verwenden Sie Python-Zeichenfolgenoperationen zum Organisieren Ihrer Daten.


0 für die Antwort № 3

Sie können dies ganz einfach durch XML-Analyse tun

from lxml import html
import requests
page = requests.get("http://google.com")
with open("/home/Desktop/test.txt","wb") as f :
f.write(page.content)