Pomoc pri programovaní, odpovede na otázky / krajta / Škrabanie webových stránok s python3 & beautifulsoup 4 - python, webové stránky, beautifulsoup, screen-scraping

Škrabanie webových stránok s python3 & beautifulsoup 4 - python, webové stránky, beautifulsoup, screen-scraping

Začínam robiť pokrok na webovej škrabke, ale narazil som na dve ruky. Tu je kód ako prvý:

import requests
from bs4 import BeautifulSoup

r=requests.get("http://www.nytimes.com")
soup=BeautifulSoup(r.text)

headlines=soup.find_all(class_="story-heading")
for headline in headlines:
print (headline)

otázky

Prečo musíte používať? find_all(class_= blahblahblah) Namiesto spravodlivého find_all(blahblahblah)? Uvedomujem si, že story-heading je vlastná trieda, ale nemôžem len hľadať všetky HTML pomocou find_all a získať rovnaké výsledky? Poznámky pre BeautifulSoup show_all.a vrátia všetky tagy kotvy do dokumentu HTML, prečo vyhral "t find_all("story-heading") urobiť to isté?

Je to preto, že ak sa to pokúsim a urobím to, bude to jednoduchonájsť všetky prípady "story-heading" v HTML a vrátiť to? Snažím sa dostať Python, aby vrátil všetko v tejto značke. To je môj najlepší odhad.
Prečo dostanem celý tento extra nevyžiadaný kód? Moja požiadavka na to, aby som našiel všetko, mi ukázal všetko v hlavičke príbehu? Dostávam oveľa viac textu než to, čo som sa práve snažil špecifikovať.

odpovede:

1 pre odpoveď č. 1

Krásna polievka vám umožňuje používať výbery CSS. Pozrite sa na doc pre "volič CSS"

Všetky prvky s triedou "príbeh-heading" nájdete takto:

soup.find_all(".story-heading")

Ak namiesto toho hľadáte ID, stačí

soup.find_all("#id-name")

Súvisiace otázky

Škrábanie správania používateľov na konkrétnej webovej stránke - škrabanie na webe

Škrabanie webových stránok eCommerce na webe pomocou rozšírenia prehliadača Google Chrome - škrabanie na webe

Screen Scraping webovú stránku založenú na Javascripte v jazyku Python - python, skrátenie obrazovky, beautifulsoup, web-scraping

Škrábanie patentov Google so žiadosťami vráti iba štýly a skripty - python, web-scraping, beautifulsoup, python-requests

Python obrazovka oškrabovať celú webovú stránku - python, html, screen-scraping, beautifulsoup

Krásna chyba na inštaláciu pip pipu - python, python-3.x, beautifulsoup

Python Beautiful Soup web škrabanie CNN volebné výsledky - python, web-škrabanie, beautifulsoup

Ako zrýchliť Beautifulsoup v Pythone? - python, python-2.7, beautifulsoup

ako odstrániť & zwnj z reťazca v pythone? - python, beautifulsoup, scratching obrazovky

Ako skrútiť url zo zoznamu pomocou python - python, web - scraping, beautifulsoup

Beautifulsoup škrabanie tabuľky z webových stránok s požiadavkami na pandy - python, pandy, beautifulsoup, python-žiadosti

Pre web škrabanie cez Python, kedy by som mal použiť html analyzátor namiesto lxml? Čo je lepšie a prečo? [uzavretý] - python, html, škrabanie na webe, html-parsing, lxml

Python Škrabanie PDF z webovej stránky Prečo sú všetci poškodení a rovnaká veľkosť? - python, pdf, web-scraping, python-žiadosti

Škrabanie hodnôt tabuľky v python - python, html, škrabanie webových stránok, beautifulsoup

V systéme Python, ako odstránite prvé x bajty z 5 súborov MS Word (.doc), ktoré ste vytvorili oškrtnutím webových stránok pomocou bs4? - python, škrabanie webových stránok, ms-word, beautifulsoup, bs4

Beautifulsoup nie je modul - python, beautifulsoup

Ako exportovať javascript z html pomocou python [closed] - python, web-scraping

Ako skrútiť značky P pomocou krásnej polievky - python, škrabanie webových stránok, beautifulsoup, tagy

Python Web škrabanie s krásnou polievkou 3: ako získať text z div - html, python - 2.7, web - scraping, beautifulsoup

Podávajte štepené HTML dáta ako API pomocou Django Rest Framework - django, rest, web-scraping, django-rest-framework