Hilfe bei der Programmierung, Antworten auf Fragen / Python / Website Scraping mit Python3 & Beautifulsoup 4 - Python, Website, Beautifulsoup, Bildschirmschaben

Website Scraping mit Python3 & BeautifulSoup 4 - Python, Website, beautifulsoup, screen-scraping

Ich fange an, Fortschritte bei einem Website-Scraper zu machen, aber ich habe zwei Probleme. Hier ist der Code zuerst:

import requests
from bs4 import BeautifulSoup

r=requests.get("http://www.nytimes.com")
soup=BeautifulSoup(r.text)

headlines=soup.find_all(class_="story-heading")
for headline in headlines:
print (headline)

Fragen

Warum musst du verwenden find_all(class_= blahblahblah) Anstatt einfach find_all(blahblahblah)? Mir ist klar, dass das story-heading ist eine Klasse für sich, aber ich kann nicht einfach den gesamten HTML-Code durchsuchen find_all und die gleichen Ergebnisse erzielen? Die Hinweise für BeautifulSoup zeigen find_all.a, wobei alle Ankertags in einem HTML-Dokument zurückgegeben werden, warum dies nicht der Fall ist find_all("story-heading") das Gleiche tun?

Liegt es daran, wenn ich es versuche, dann ebenalle Instanzen von "Story-Überschriften" im HTML-Code finden und zurückgeben? Ich versuche, dass Python alles in diesem Tag zurückgibt. Das ist meine beste Vermutung.
Warum bekomme ich diesen zusätzlichen Junk-Code? Sollten meine Suchanfragen nur alles im Story-Header-Tag anzeigen? Ich bekomme viel mehr Text, als ich gerade zu spezifizieren versuche.

Antworten:

1 für die Antwort № 1

Mit Beautiful Soup können Sie CSS-Selektoren verwenden. Schau in den Dok für "CSS Selector"

Sie können alle Elemente mit der Klasse "Story-Überschrift" so finden:

soup.find_all(".story-heading")

Wenn Sie stattdessen "nach Id suchen", tun Sie es einfach

soup.find_all("#id-name")

Verwandte Fragen

Scrapping Benutzerverhalten in einer bestimmten Webseite - Web-Scraping

Web-Scraping einer E-Commerce-Website mit Google Chrome-Erweiterung - Web-Scraping

Screen Scraping einer Javascript-basierten Webseite in Python - Python, Screen-Scraping, BeautifulSoup, Web-Scraping

Das Abschreiben von Google-Patenten mit Anfragen gibt nur Stil- und Skript-Tags zurück - Python, Web-Scraping, BeautifulSoup, Python-Anfragen

Python Bildschirm scrape ganze Website - Python, HTML, Screen-Scraping, beautifulsoup

Schöne Suppe Pip Installation Fehler - Python, Python-3.x, beautifulsoup

Python Schöne Suppe Web Scraping CNN Wahlergebnisse - Python, Web-Scraping, beautifulsoup

Wie beschleunigt Beautifulsoup in Python? - Python, Python-2.7, beautifulsoup

Wie entferne ich & zwnj von String in Python? - python, beautifulsoup, screen-scraping

Wie man URL von der Liste mithilfe von Python löscht - Python, Web-Scraping, beautifulsoup

Beautifulsoup Scraping Table von der Website mit Anfragen für Pandas - Python, Pandas, Beautifulsoup, Python-Anfragen

Für Web-Scraping durch Python, wann sollte ich einen HTML-Parser anstelle von Lxml verwenden? Was ist besser und warum? [geschlossen] - Python, HTML, Web-Scraping, HTML-Parsing, Lxml

Python Scrapping PDFs von einer Website Warum sind sie alle korrupt und die gleiche Größe? - Python, PDF, Web-Scraping, Python-Anfragen

Tabellenwerte in Python auskratzen - Python, HTML, Web-Scraping, beautifulsoup

Wie entfernen Sie in Python die ersten x Bytes von 5 MS Word (.doc) Dateien, die Sie erstellt haben, indem Sie die Website mit bs4 scrapen? - Python, Web-Scraping, MS-Word, BeautifulSoup, BS4

Beautifulsoup ist kein Modul - Python, beautifulsoup

Wie exportiert man Javascript aus HTML mit Python [geschlossen] - Python, Web-Scraping

Wie man P-Tags mit schöner Suppe - Python, Web-Scraping, Beautifulsoup, Tags

Python Web Scraping mit Beautiful Soup 3: wie man Text aus div - html, Python-2.7, Web-Scraping, beautifulsoup

Serve geschabte HTML-Daten als API mit Django Rest Framework - Django, Ruhe, Web-Scraping, Django-Rest-Framework