Aiuto nella programmazione, risposte alle domande / Xml / scrapy XMLFeedSpider analizza l'indicatore del gruppo xml - xml, scrapy

XMLFeedSpider analizza l'indicatore del gruppo XML xml, scrapy

Ho qualche problema con il selettore xpath in Scrapy. Non riesco ad analizzare i tag multimediali. Potete aiutarmi, alcune idee, qualche esempio di codice. Grazie Questo è il mio ragno

import scrapy
from scrapy.spiders import XMLFeedSpider
from crawler.items import News

class CNNSpider(XMLFeedSpider):
name = "cnn"
start_urls = [
"http://rss.cnn.com/rss/edition.rss", # Top stories
#"http://rss.cnn.com/rss/cnn_latest.rss", # most recerent
]
iterator = "iternodes"  # This is actually unnecessary, since it"s the default value
itertag = "item"

def parse_node(self, response, node):
item = News()
item["title"] = node.xpath("./title/text()").extract()
item["description"] = node.xpath("./description/text()").extract()
item["link"] = node.xpath("./link/text()").extract()
item["media"] = node.xpath("./media:group/media:content/@url").extract()
item["pubDate"] = node.xpath("./pubDate/text()").extract()
print item["media"]

E il mio feed xml:

<item>
<title><![CDATA[More than 200 dead in Mexico quake, buildings toppled]]></title>
<link>http://www.cnn.com/collections/mexico-city-earthquake-intl/</link>
<guid isPermaLink="true">http://www.cnn.com/collections/mexico-city-earthquake-intl/</guid>
<pubDate>Wed, 20 Sep 2017 10:03:24 GMT</pubDate>
<media:group>
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-super-169.jpg" height="619" width="1100" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-large-11.jpg" height="300" width="300" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-vertical-large-gallery.jpg" height="552" width="414" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-video-synd-2.jpg" height="480" width="640" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-live-video.jpg" height="324" width="576" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-t1-main.jpg" height="250" width="250" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-vertical-gallery.jpg" height="360" width="270" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-story-body.jpg" height="169" width="300" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-t1-main.jpg" height="250" width="250" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-assign.jpg" height="186" width="248" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-hp-video.jpg" height="144" width="256" />
</media:group>
</item>

risposte:

0 per risposta № 1

È necessario utilizzare sotto Xpath

item["media"] = node.xpath("./*[local-name()="group"]/*[local-name()="content"]/@url").extract()

Fondamentalmente il problema è che i nodi utilizzano lo spazio dei nomi. Oppure puoi registrare lo spazio dei nomi all'interno del tuo file parse_node funzione e farlo funzionare

node.register_namespace("media", "http://search.yahoo.com/mrss/")
item["media"] = node.xpath("./media:group/media:content/@url").extract()

domande correlate

Come impostare i cookie in Scrapy + Splash quando javascript fa più richieste? - scrapy, web-crawler, scrapy-splash

Lascia che Scrapy continui a strisciare dall'ultimo punto di interruzione: scrapy

Installa scrapy su CentOS con più versioni python: python, scrapy, pip

Come ottenere più ragni di Scrapy per analizzare un elenco di collegamenti URL contemporaneamente? - python, scrapy, multiprocessing

Scrapy non è installato correttamente su mac? - python, python-2.7, scrapy

"Scrapy: comando non trovato" nell'esecuzione attraverso script di shell - python, linux, bash, shell, web-scraping

Esecuzione di ragno graffiante su più macchine (raschiamento parallelo) - pitone, graffiante

Scrapy shell continua a restituire la sintassi non valida in terminal - python, shell, terminal, scrapy

Ordine di strisciare in Scrapy - python, scrapy

Determina la directory radice scrapy - python, screen-scraping, scrapy

Scrapy spider non rilascia memoria oggetti - python, xml, scrapy, web-crawler

come analizzare una stringa da un altro script - python, windows, crawler web, scrapy

Scrapy restituisce zero risultati: python, scrapy, scrapy-spider

Modulo Scrapy non trovato per uno script di crawling web: python, scrapy, web-crawler

Come inviare i dati dei post in start_urls del ragno scrapy - python, web-scraping, scrapy, scrapy-spider

Ottieni il tipo MIME con Scrapy - python, scrapy, mime-types

Python, passaggio di dati in Scrapy - python, scrapy

Scrapy on the Cloud - python, cloud, scrapy

Come ottenere Scrapy Version 0.12? - python, download, versione, scrapy

Usa XMLFeedSpider per analizzare html e xml - html, xml, scrapy, web-crawler