Ayuda en la programación, respuestas a preguntas / Html / Use XMLFeedSpider para analizar html y xml - html, xml, scrapy, rastreador web

Utilice XMLFeedSpider para analizar html y xml: html, xml, scrapy, rastreador web

Tengo una página web desde donde tomo los enlaces RSS. Los enlaces son XML y me gustaría usar la funcionalidad XMLFeedSpider para simplificar el análisis.

¿Es eso posible?

Este sería el flujo:

GET example.com/rss (devuelve HTML)
Analizar html y obtener enlaces RSS
foreach link parse XML

Respuestas

0 para la respuesta № 1

He encontrado una forma sencilla basada en la existente ejemplo en la documentación y mirando el código fuente. Aquí está mi solución:

from scrapy.spiders import XMLFeedSpider
from myproject.items import TestItem

class MySpider(XMLFeedSpider):
name = "example.com"
allowed_domains = ["example.com"]
start_urls = ["http://www.example.com/feed.xml"]
iterator = "iternodes"  # This is actually unnecessary, since it"s the default value
itertag = "item"

def start_request(self):
urls = ["http://www.example.com/get-feed-links"]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse_main)

def parse_main(self, response):
for el in response.css("li.feed-links"):
yield scrapy.Request(el.css("a::attr(href)").extract_first(),
callback=self.parse)

def parse_node(self, response, node):
self.logger.info("Hi, this is a <%s> node!: %s", self.itertag,     "".join(node.extract()))

item = TestItem()
item["id"] = node.xpath("@id").extract()
item["name"] = node.xpath("name").extract()
item["description"] = node.xpath("description").extract()
return item

preguntas relacionadas

Indicador del grupo XML XML parseado de XMLFeedSpider: xml, scrapy

un rastreador que crea el árbol de enlaces en un único sitio web: sitio web, árbol, hipervínculo, rastreador web

Cómo controlar el estado de la terapia mientras se ejecuta - scrapy, scrapyd

Scrapy CrawlSpider parse_item para una respuesta de redireccionamiento 302: redireccionamiento, raspado web, rastrillo, rastreador web

¿Podemos ejecutar código desechable fuera de shell shell? - pitón, raspado web, scrapy

Manejo de páginas de error en Scrapy - python, rastreador web, scrapy

¿Cómo puedo hacer que Scrapy emita una devolución de llamada correctamente? - python, web-scraping, web-crawler, scrapy

¿Son los bots diferentes de los rastreadores desde el punto de vista de Python Django? Python, django, web-crawler, scrapy, bots

Python Scrapy dando error de importación en Linux para la extensión - python, scrapy

Orden de rastreo en Scrapy - python, scrapy

La araña de Scrapy no libera elementos de memoria: python, xml, scrapy, rastreador web

cómo analizar una cadena a araña desde otra secuencia de comandos: python, windows, web-crawler, scrapy

Ejecuta localmente todas las arañas en Scrapy: python, rastreador web, scrapy

La forma más sencilla de ejecutar crawler scrapy para que no bloquee el script - python, scrapy

Pasar argumentos a process.crawl en Scrapy python - python, rastreador web, scrapy, scrapy-spider, google-crawlers

Cómo poner en cola la nueva URL cuando se produce una excepción en Scrapy - python, scrapy, rastreador web

Ejecución de múltiples rastreadores en Scrapy secuencialmente - python, scrapy, rastreador web, captura de pantalla

Scrapy dmoz tutorial: _init_ () toma como máximo 2 argumentos (3 dados) - python-2.7, scrapy, scrapy-spider, dmoz

Alimente a Rethinkdb con scrapy - python-2.7, scrapy, rechinkdb, rethinkdb-python, scrapy-pipeline

scrapy: ¿cómo omitir las urls que no responden? - Python-2.7, desechable