Hilfe bei der Programmierung, Antworten auf Fragen / Python / BeautifulSoup Scraping: Ich bin verwirrt - Python, beautifulsoup

BeautifulSoup Scraping: Ich bin verwirrt - Python, beautifulsoup

Ich versuche zu kratzen Diese Seite, und ich möchte alle Anker-Tags überprüfen.

Ich habe beautifulsoup 4.3.2 importiert und hier ist mein Code:

url = """http://www.civicinfo.bc.ca/bids?pn=1"""
Html = urlopen(url).read()
Soup = BeautifulSoup(Html, "html.parser")
Content = Soup.find_all("a")

Mein Problem ist, dass Inhalt immer leer ist (d. H. Content = []). Hat jemand irgendwelche Ideen?

Antworten:

2 für die Antwort № 1

Von die Dokumentation html.parser ist vor bestimmten Versionen von Python nicht sehr nachsichtig. Sie sehen sich also wahrscheinlich falsch formatiertes HTML an.

Was Sie tun möchten, funktioniert, wenn Sie verwenden lxml Anstatt von html.parser

Von die Dokumentation:

Trotzdem gibt es Dinge, die Sie tun können, um zu beschleunigenup Schöne Suppe. Ob Wenn Sie nicht lxml als zugrunde liegenden Parser verwenden, ist mein Ratschlag, zu beginnen. Beautiful Soup analysiert Dokumente mit lxml bedeutend schneller als mit html.parser oder html5lib.

Der relevante Code wäre also:

Soup = BeautifulSoup(Html, "lxml")

Verwandte Fragen

Website Scraping mit Python3 & BeautifulSoup 4 - Python, Website, beautifulsoup, screen-scraping

Schöne Suppe und Table Scraping - Lxml vs HTML-Parser - Python, Web-Scraping, HTML-Analyse, Beautifulsoup, Lxml

Flucht und Hölle mit BeautifulSoup - Python, Flucht, Beautifulsoup, Web-Scraping

Probleme mit der Installation von beautifulsoup 4.6 für Python 3.6 auf Mac - Python, Macos, Python-2.7, Python-3.x, beautifulsoup

BS4 und BeautifulSoup Fehler von: kann nicht lesen / var / mail / BeautifulSoup - python, beautifulsoup, bs4

Das Abschreiben von Google-Patenten mit Anfragen gibt nur Stil- und Skript-Tags zurück - Python, Web-Scraping, BeautifulSoup, Python-Anfragen

Schöne Suppe Pip Installation Fehler - Python, Python-3.x, beautifulsoup

Fehler mit Code Python Beautifulsoup extrahieren spezifischen Link mit Text - Python, URL, beautifulsoup

Wie extrahiert man IDs und Klassen von einer Webseite mit Python? - Python, HTML, Web-Scraping

Wie beschleunigt Beautifulsoup in Python? - Python, Python-2.7, beautifulsoup

Geben Sie detaillierte Schritte für die Installation von BeautifulSoup für Python in Notepad ++ - Python, beautifulsoup

Python BeautifulSoup kann keine Tabellen-ID finden - python, html, beautifulsoup

Für Web-Scraping durch Python, wann sollte ich einen HTML-Parser anstelle von Lxml verwenden? Was ist besser und warum? [geschlossen] - Python, HTML, Web-Scraping, HTML-Parsing, Lxml

Python Scrapping PDFs von einer Website Warum sind sie alle korrupt und die gleiche Größe? - Python, PDF, Web-Scraping, Python-Anfragen

Wie entfernen Sie in Python die ersten x Bytes von 5 MS Word (.doc) Dateien, die Sie erstellt haben, indem Sie die Website mit bs4 scrapen? - Python, Web-Scraping, MS-Word, BeautifulSoup, BS4

Beautifulsoup ist kein Modul - Python, beautifulsoup

Scrape mit schönen Soup Erhaltung von Entitäten - Python, Web-Scraping, BeautifulSoup, HTML-Parsing, HTML-Entities

Wie exportiert man Javascript aus HTML mit Python [geschlossen] - Python, Web-Scraping

Beautifulsoup, um für Python zu laufen - Python, beautifulsoup

Python Web Scraping mit Beautiful Soup 3: wie man Text aus div - html, Python-2.7, Web-Scraping, beautifulsoup