Aide à la programmation, réponses aux questions / Xml / scrapy XMLFeedSpider parse l'indicateur de groupe xml - xml, scrapy

scrapy XMLFeedSpider parse indicateur de groupe xml - xml, scrapy

J'ai un problème avec le sélecteur xpath dans Scrapy. Je ne peux pas analyser la balise multimédia. Pouvez-vous m'aider, quelques idées, un exemple de code. Merci C'est mon araignée

import scrapy
from scrapy.spiders import XMLFeedSpider
from crawler.items import News

class CNNSpider(XMLFeedSpider):
name = "cnn"
start_urls = [
"http://rss.cnn.com/rss/edition.rss", # Top stories
#"http://rss.cnn.com/rss/cnn_latest.rss", # most recerent
]
iterator = "iternodes"  # This is actually unnecessary, since it"s the default value
itertag = "item"

def parse_node(self, response, node):
item = News()
item["title"] = node.xpath("./title/text()").extract()
item["description"] = node.xpath("./description/text()").extract()
item["link"] = node.xpath("./link/text()").extract()
item["media"] = node.xpath("./media:group/media:content/@url").extract()
item["pubDate"] = node.xpath("./pubDate/text()").extract()
print item["media"]

Et mon flux xml:

<item>
<title><![CDATA[More than 200 dead in Mexico quake, buildings toppled]]></title>
<link>http://www.cnn.com/collections/mexico-city-earthquake-intl/</link>
<guid isPermaLink="true">http://www.cnn.com/collections/mexico-city-earthquake-intl/</guid>
<pubDate>Wed, 20 Sep 2017 10:03:24 GMT</pubDate>
<media:group>
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-super-169.jpg" height="619" width="1100" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-large-11.jpg" height="300" width="300" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-vertical-large-gallery.jpg" height="552" width="414" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-video-synd-2.jpg" height="480" width="640" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-live-video.jpg" height="324" width="576" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-t1-main.jpg" height="250" width="250" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-vertical-gallery.jpg" height="360" width="270" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-story-body.jpg" height="169" width="300" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-t1-main.jpg" height="250" width="250" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-assign.jpg" height="186" width="248" />
<media:content medium="image" url="http://i2.cdn.turner.com/cnnnext/dam/assets/170919190244-25-mexico-earthquake-0919-hp-video.jpg" height="144" width="256" />
</media:group>
</item>

Réponses:

0 pour la réponse № 1

Vous devez utiliser ci-dessous Xpath

item["media"] = node.xpath("./*[local-name()="group"]/*[local-name()="content"]/@url").extract()

Fondamentalement, le problème est que les nœuds utilisent l'espace de noms. Ou vous pouvez enregistrer l'espace de noms dans votre parse_node fonctionner et le faire fonctionner

node.register_namespace("media", "http://search.yahoo.com/mrss/")
item["media"] = node.xpath("./media:group/media:content/@url").extract()

questions connexes

Comment définir des cookies dans Scrapy + Splash lorsque javascript fait plusieurs demandes? - scrapy, web-crawler, scrapy-splash

Laissez Scrapy continuer à ramper depuis le dernier point de rupture

Installez scrapy sur CentOS avec plusieurs versions de python - python, scrapy, pip

Comment faire en sorte que plusieurs araignées Scrapy analysent une liste de liens URL en même temps? - Python, scrapy, multitraitement

Scrapy n'est pas installé correctement sur mac? - python, python-2.7, scrapy

«Scrapy: commande introuvable» lors de l'exécution d'un script shell - python, linux, bash, shell, Web-scraping

Faire fonctionner une araignée sur plusieurs machines (grattage parallèle) - Python, scrapy

Scrapy shell continue à renvoyer une syntaxe non valide dans terminal - python, shell, terminal, scrapy

Ordre de ramper dans Scrapy - python, scrapy

Déterminez le répertoire racine de scrapy - python, screen-scraping, scrapy

Scrapy Spider ne libère pas la mémoire des objets - python, xml, scrapy, web-crawler

comment analyser une chaîne sur spider à partir d'un autre script - python, windows, crawler, web

Scrapy ne donne aucun résultat - python, scrapy, scrapy-araignée

Module Scrapy introuvable pour un script d'analyse Web - Python, scrapy, Web-crawler

Comment envoyer des données de publication dans les start_urls de l'araignée raclante - python, déchirure du Web, raclée, racleuse-araignée

Obtenez le type MIME avec Scrapy - python, scrapy, mime-types

Python, transmission de données dans Scrapy - Python, scrapy

Scrapy on the Cloud - Python, nuage, scrapy

Comment obtenir Scrapy Version 0.12? - python, télécharger, version, scrapy

Utilisez XMLFeedSpider pour analyser html et xml - html, xml, scrapy, web-crawler