Pomoc w programowaniu, odpowiedzi na pytania / Pyton / Skrobanie komentarzy bez użycia interfejsu API - python, przeszukiwacz stron internetowych, złomowanie

Skrobanie komentarzy bez użycia Api - python, web-crawler, scrapy

Używam skrobania, aby skrobać recenzje o książkachz witryny. Do tej pory zrobiłem przeszukiwacz i zeskrobałem komentarze do jednej książki, podając jej adres URL jako początkowy adres URL, a nawet musiałem podać tagi komentarzy na temat tej książki po znalezieniu jej z kodu źródłowego strony. Problem polega na tym, że do tej pory praca była wykonywana ręcznie, chcę, aby była wykonywana automatycznie. tzn. chcę, żeby robot mógł znaleźć stronę książki na stronie i zeskrobać jej komentarze. Wydobywam komentarze z goodreads i nie zapewnia jednolitej metody dla adresów URL, a nawet tagi są różne dla różne książki. Dodatkowo nie chcę używać interfejsu API. Chcę wykonać całą pracę sam. Każda pomoc będzie mile widziana.

Odpowiedzi:

0 dla odpowiedzi № 1

Wygląda na to że CrawlSpider pasuje do twoich potrzeb. Możesz zacząć w następujący sposób:

Podaj listę początkowych adresów URL przeszukiwacza start_urls = ["https://www.goodreads.com"].

Aby identyfikować adresy URL z książkami, możesz utworzyć następujące elementy Rule:

rules = (
Rule(SgmlLinkExtractor(allow=(r"book/show/.+", )), callback="parse_comments"),
)

0 dla odpowiedzi nr 2

HtmlAgilityPack pomógł mi w parsowaniu i czytaniu Xpath dla recenzji. Zadziałało :)

Powiązane pytania

Czy program Rapidminer może wyodrębnić wartość XPath z określonej listy adresów URL? - xpath, web-scraping, web-crawler, rapidminer

robot, który tworzy drzewo linków z jednej witryny - strony internetowej, drzewa, hiperłącza, robota sieciowego

narzędzia do indeksowania sieci, które obsługują interakcje z lokalizacjami docelowymi, zanim zaczną się indeksować - robot indeksujący sieci, odrętwienie

Czy możemy uruchomić kod scrapy poza powłoką scrapy? - python, skrobaczka internetowa, scrapy

skrobanie pythona poprzez dynamiczne uzyskiwanie adresów URL - python, robot sieciowy, skradanie stron internetowych

Nie można uruchomić scrapy dla Pythona - python, web-scraping, scrapy

"Scrapy: command not found" podczas uruchamiania skryptu powłoki - python, linux, bash, shell, web-scraping

Uruchomienie pająka do scrapy na wielu maszynach (równoległe skrobanie) - python, scrapy

Jak sprawić, by Scrapy poprawnie wywoływać wywołania zwrotne? - python, skrobanie w Internecie, robota sieciowego, scrapy

Boty różnią się od robotów z punktu widzenia python Django - python, django, robota sieciowego, scrapy, boty

Python Scrapy daje błąd importu w Linuksie dla rozszerzenia - python, scrapy

Kolejność indeksowania w Scrapy - python, scrapy

Zakończyć Scrapy, jeśli warunek jest spełniony - python, scrapy

jak przetworzyć ciąg do pająka z innego skryptu - python, windows, robota sieciowego, scrapy

Nie znaleziono modułu Scrapy dla skryptu indeksującego strony internetowe - python, scrapy, robota sieciowego

Najprostszy sposób uruchomienia przeszukiwacza scrapy, aby nie blokował skryptu - python, scrapy

Uruchamianie wielu przeszukiwaczy w trybie Scrapy sekwencyjnie - python, scrapy, przeszukiwacz sieci, skrobanie ekranu

Scrapy-Scraper nie działa - python-2.7, web-scraping, scrapy, screen-scraping, scrapy-spider

Samouczek Scrapy dmoz: _init_ () przyjmuje co najwyżej 2 argumenty (3 dane) - python-2.7, scrapy, scrapy-spider, dmoz

Feed Rethinkdb z scrapy - python-2.7, scrapy, rethinkdb, rethinkdb-python, scrapy-pipeline