Pomoc w programowaniu, odpowiedzi na pytania / Beautifulsoup / Beautiful Soup - Wyszukiwanie między dwiema częściami dokumentu - beautifulsoup

Piękna zupa - wyszukiwanie między dwiema częściami dokumentu - beautifulsoup

Czy można po prostu uruchomić piękną zupę nad zawartością zawartą między dwoma łańcuchami na stronie?

Wielokrotnie przeciwstawiając się ograniczeniom związanym z używaniem Yahoo Pipes do wygaszania ekranu, zacząłem używać Beautiful Soup, częściowo dlatego, że hostowana wersja jest dostępna na Scraperwiki.

Jedną z przydatnych rzeczy w bloku importu HTML w Yahoo Pipes jest to, że pozwala on zidentyfikować ciąg początkowy i ciąg zatrzymania, dzięki czemu można ograniczyć zeskrobanie do określonego regionu strony.

Znalazłem sposób na skrobanie / z / określonego ciągu w Pięknej zupie:

def scrapeFrom(soup,txt,el,attr=""): start=soup.find(text=txt) return start.findAllNext(el,attr)

ale czy nie widzi, jak zrzucić wszystko w dół łańcucha?

To znaczy, chcę móc powiedzieć „scrapeFromUntil (zupa, fromText, untilText)” i tylko zeskrobać tagi między tymi dwoma ciągami?

Wszelkie pomysły, jak to zrobić?

Odpowiedzi:

0 dla odpowiedzi № 1

Nie do końca to, czego chciałeś, ale w zależności od formatu twojego HTML możesz znaleźć użycie SoupStrainer do ograniczenia parsowania tylko do części dokumentu przydatny.

Powiązane pytania

problemy z instalowaniem / używaniem Beautiful Soup 4 - python, beautifulsoup

Beautiful Soup and Table Scraping - lxml vs html parser - python, web-scraping, html-parsing, beautifulsoup, lxml

Jak wydrukować zupę do .html przy użyciu Beautiful Soup? - python, json, beautifulsoup

Jak korzystać z wielu warunek findAll w python3? - python, python-3.x, beautifulsoup, robota sieciowego

Skrobanie BeautifulSoup: jestem zdezorientowany - python, beautifulsoup

Błąd instalacyjny Beautiful PIP - python, python-3.x, beautifulsoup

line = line.strip () TypeError: obiekt "NoneType" nie jest wywoływalny - python, object, typeerror, callable, nonetype

Problemy z urllib2 / piękną zupą nie zeskrobującą - python, beautifulsoup, urllib2

uzyskanie określonego obrazu z linku do strony za pomocą beautifulSoup - python, beautifulsoup

Beautiful Soup: Próba wybrania znaczników na wielu kolidujących kryteriach - python, html, beautifulsoup, html-parsing

Piękna zupa na heroku? - python, django, heroku, beautifulsoup, virtualenv

Próbowałem uruchomić mój program python w terminalu mac os, ale otrzymuję informację zwrotną poniżej po tym, jak pomyślnie zainstalowałem Beautifulsoup4 - python, macos, terminal, beautifulsoup

Dlaczego Beautifulsoup będzie zwracał NoneTypes, gdy otrzyma odpowiedź mechaniczną? - python, beautifulsoup, mechanize

Python to piękny skrobak do zupy - python, html, beautifulsoup

Odpowiedzi BeautifulSoup z błędem - python, html, beautifulsoup, html-parsing

Problem w tworzeniu pliku html z pięknej zupy - python, html, beautifulsoup

Jak zdobyć linki CSS używając Beautiful Soup [duplicate] - python, regex, python-3.x, beautifulsoup

Kompatybilność Python 3 BeautifulSoup - python, python-3.x, beautifulsoup, porting

Jak zeskrobać znaczniki P używając pięknej zupy - python, scrap-web, beautifulsoup, tags

BeautifulSoup nie pobiera całej wyodrębnionej klasy - beautifulsoup, robota sieciowego