Pomoc w programowaniu, odpowiedzi na pytania / Pyton / Scrapy: przechowuj dane z częścią zagnieżdżonego tagu w jednym polu elementu - python, xpath, skrobanie w sieci, scrapy

Scrapy: przechowuj dane z częścią w zagnieżdżonym tagu w jednym polu przedmiotu - python, xpath, web scraping, scrapy

Mam następujący problem: „Skrobię ceny ze strony internetowej i działa, ale pobiera tylko liczby przed przecinkiem.

Przykład: gdy coś jest warte „79 €,⁹⁰„zeskrobuje tylko 79, a nie 90.

<span class="price right right10">
€ 79,
<sup>
90*
</sup>
</span>

Chcę to zapisać w jednym polu tego typu:

class Prices(scrapy.Item):
price = scrapy.Field()

To jest mój obecny selektor xpath:

item["price"] = "".join(sel.xpath("div[@class="waresSum"]/p/span/text()").extract())

Odpowiedzi:

3 dla odpowiedzi № 1

Kluczowym problemem jest to, że pytasz o bezpośrednie węzły potomne tekstu span, musisz pobrać wszystkie węzły tekstowe z wnętrza span element:

//div[@class="waresSum"]/p/span//text()
HERE^

Również użyłbym .re() odfiltrować niechciane postacie i uzyskać tylko cyfry, , i -:

$ scrapy shell index.html
In [9]: "".join(response.xpath("//span//text()").re(r"[0-9,-]+"))
Out[9]: u"79,90"

Powiązane pytania

Czy program Rapidminer może wyodrębnić wartość XPath z określonej listy adresów URL? - xpath, web-scraping, web-crawler, rapidminer

XPATH działa w Chrome, ale nie w Scrapy - xpath, web scraping, scrapy, screen-scraping, scrapy-pająk

Scrapy drukuje dane w pliku csv w każdym innym wierszu - python, python-3.x, csv, web-scraping, scrapy

skrobanie adresu URL i tytułu z zagnieżdżonego znacznika zakotwiczenia - python, skrobanie przez WWW, scrapy

Tumblr nie robi zdjęć (scrapy) - python, web-crawler, scrapy

"Scrapy: command not found" podczas uruchamiania skryptu powłoki - python, linux, bash, shell, web-scraping

Uruchomienie pająka do scrapy na wielu maszynach (równoległe skrobanie) - python, scrapy

Jak wyodrębnić ocenę filmu w imdb z elementu obrazu za pomocą scrapy w python - python, scrapy

Skracanie danych heirarchicznych za pomocą Scrapy - python, scrapy

Dołączanie elementów do JSON Array w Scrapy? - python, tablice, json, scrapy

Zakończyć Scrapy, jeśli warunek jest spełniony - python, scrapy

Scrapy zwracające zero wyników - python, scrapy, scrapy-spider

Nie znaleziono modułu Scrapy dla skryptu indeksującego strony internetowe - python, scrapy, robota sieciowego

Scrapy / Python / XPath - Jak wyodrębnić dane z danych? - python, xpath, web-scraping, scrapy

scrapy: skrót "sel" jest przestarzały. - python, scrapy

Travel Path In Scrapy - python, scrapy

Scrapy: Wyodrębnianie linków i tekstu - python, skrobaczka internetowa, scrapy, scrapy-spider

Scrapy nie przeszukiwania lub skrobania witryn takich jak seatgeek / vividseats - python, web-scraping, scrapy

Scrapy ma inne wyniki w powłoce Python i cmd.exe - python, xpath, scrapy

Mój element Scrapy ['img_urls'] nie pobiera pliku - python, image, scrapy, scrapy-spider, scrapy-pipeline