私は基本的なCrawlSpiderをscrapyで書いていますが、URLがどのような順番でFIFO / LIFOがクロールされているのか理解したいのですが?
クローラは、開始URLページのすべてのリンクをクロールしてから、注文と思われない他のURLに移動する必要があります。
これどうやってするの?
回答:
回答№1は6デフォルトでは、ScrapyはLIFOキューを使用して格納します保留中の要求、 これは基本的にはDFOの順序でクロールすることを意味します。この順序はもっと ほとんどの場合に便利です。真のBFO命令でクロールしたいのであれば、 以下の設定を行うことでそれを行うことができます:
DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = "scrapy.squeue.PickleFifoDiskQueue"
SCHEDULER_MEMORY_QUEUE = "scrapy.squeue.FifoMemoryQueue"