Hilfe bei der Programmierung, Antworten auf Fragen / Python / Wie extrahiere ich IDs und Klassen von einer Webseite mit Python? - Python, HTML, Web-Scraping

Wie extrahiert man IDs und Klassen von einer Webseite mit Python? - Python, HTML, Web-Scraping

Dies ist mein Code bisher:

import urllib2
with urllib2.urlopen("https://quora.com") as response:
html = response.read()

Ich bin neu in Python und irgendwie ist es mir gelungen, die Webseite abzurufen. Wie kann ich nun IDs und Klassen von der Webseite extrahieren?

Antworten:

0 für die Antwort № 1

Sie können versuchen, den HTML-Code mit dedizierten Bibliotheken zu analysieren, z.

0 für die Antwort № 2

Ein besserer Weg wäre die Verwendung der BeautifulSoup (bs4) Web-Scraping-Bibliothek und -Anfragen.

Nachdem Sie beide mit pip installiert haben, können Sie wie folgt starten:

import requests
from bs4 import BeautifulSoup

r = requests.get("http://quora.com")
soup = BeautifulSoup(r.content, "html.parser")

So finden Sie ein Element mit einer bestimmten ID:

soup.find(id="your_id")

So finden Sie alle Elemente mit der Klasse "Antwort":

soup.find_all(class_="Answer")

Sie können dann verwenden .get_text() Entfernen Sie die HTML-Tags und verwenden Sie Python-Zeichenfolgenoperationen zum Organisieren Ihrer Daten.

0 für die Antwort № 3

Sie können dies ganz einfach durch XML-Analyse tun

from lxml import html
import requests
page = requests.get("http://google.com")
with open("/home/Desktop/test.txt","wb") as f :
f.write(page.content)

Verwandte Fragen

Welche Programmiersprache single page web scraping? [geschlossen] - Screen-Scraping

Screen-Scraping und SQL-Datenbank - Screen-Scraping

Python-Scraping durch dynamische URLs - Python, Web-Crawler, Web-Scraping

Schöne Suppe und Table Scraping - Lxml vs HTML-Parser - Python, Web-Scraping, HTML-Analyse, Beautifulsoup, Lxml

Screen Scraping einer Javascript-basierten Webseite in Python - Python, Screen-Scraping, BeautifulSoup, Web-Scraping

Scrapping Schriftgröße aus HTML und CSS - Python, HTML, CSS, Web-Scraping

Echtzeitdaten von der ajax-Website in python - python, ajax extrahieren

Scraping Twitter-Inhalte mit BeatifulousSoup - Python, Twitter, Web-Scraping, beautifulsoup

Wie entferne ich & zwnj von String in Python? - python, beautifulsoup, screen-scraping

Wie prüfe ich, ob eine Webseite ein Codebeispiel oder Nur-Text enthält? - Python, HTML, Web-Scraping

Ich konnte den genauen Quellcode meines Blogs nicht finden - Python, HTML, HTML-Parsing, Screen-Scraping, Web-Scraping

Auto-Python-Web-Scraping-Programm ausführen - Python, Ubuntu, Web-Scraping

Laden Sie Dateien nach dem Öffnen einer Webseite mit Python herunter - Python, Web-Scraping

Scraping und Speichern von HTML-Dateien ohne Bilder in Python - Python, Web-Scraping

Warum verwenden einige Codebeispiele auf der Python-Website nicht die Konvention `class classname (object):`? [Duplizieren] - Python

Ein JavaScript / Json-Objekt von einer Webseite mit BeautifulSoup scrappen? - javascript, python, html, json, beautifulsoup

Scraping-Sites mit Javascript Bildschirm Verzögerung [geschlossen] - Javascript, Python, Screen-Scraping, Web-Scraping, Scraper

Scraping einer dynamisch generierten Webseite mit HTML5 <input> -Feld - Javascript, Python, HTML, Web, Web-Scraping

Versuche, Python und Selenium zu verwenden, um eine Webseite iterativ zu scrollen und zu scrappen - javascript, python, selen, beautifulsoup

URLs-Links aus Pop-ups extrahieren, die oben auf der Webseite mit Shell-Skript angezeigt werden? - HTML, Linux, Shell, Webseite