プログラミングの助け、質問への回答 / Python / Screamでのクロールの順序 - python、scrapy

スクリーニングでのクロールの順序 - python、scrapy

私は基本的なCrawlSpiderをscrapyで書いていますが、URLがどのような順番でFIFO / LIFOがクロールされているのか理解したいのですが？

クローラは、開始URLページのすべてのリンクをクロールしてから、注文と思われない他のURLに移動する必要があります。

これどうやってするの？

回答：

回答№1は6

http://readthedocs.org/docs/scrapy/en/0.14/faq.html#does-scrapy-crawl-in-breath-first-or-depth-first-order

デフォルトでは、ScrapyはLIFOキューを使用して格納します保留中の要求、これは基本的にはDFOの順序でクロールすることを意味します。この順序はもっとほとんどの場合に便利です。真のBFO命令でクロールしたいのであれば、以下の設定を行うことでそれを行うことができます：

 DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = "scrapy.squeue.PickleFifoDiskQueue"
SCHEDULER_MEMORY_QUEUE = "scrapy.squeue.FifoMemoryQueue"

関連する質問

リンクツリーを構築するクローラは、Webサイト、ツリー、ハイパーリンク、Webクローラなどの単一のWebサイトを形成します

治療の応答がキャッシュに追加されないようにする

傷病は最後の壊れ目から這い続ける - 癒し

複数のpythonバージョンを持つCentOSにscrapyをインストールする - python、scrapy、pip

ScrapyはMacに正しくインストールされていませんか？ - python、python-2.7、scrapy

良いクロールスピードとは何ですか？ - python、scrapy、web-crawler

シェルスクリプトを実行中の "scrapy：command not found" - python、linux、bash、shell、web-scraping

複数のマシン上でスパイダースパイダーを実行する（並列スクレイピング） - python、scrapy

ボットはPythonのDjangoの視点からのクローラとは異なりますか？ - Python、Django、Web-Crawler、Scrapy、Bots

スキルシェルは、ターミナルで無効な構文を返す - python、shell、terminal、scrapy

ScrapyのJSON配列にアイテムを追加しますか？ - python、配列、json、scrapy

詐欺CrawlSpider：クロール中に拒否ルールリストを修正する - python、scrapy、web-crawler、scrapy-spider

ゼロ結果を返すスクリーニング - python、scrapy、scrapy-spider

Webクローリングスクリプトでスクリーニングモジュールが見つかりません - python、scrapy、web-crawler

ScrapyでMIMEタイプを取得する - python、scrapy、mime-types

Python、Scrapyでデータを渡す - python、scrapy

雲の上でのスクリーニング - python、cloud、scrapy

それはスクリプトをブロックしないように、スクラップクローラーを実行する最も簡単な方法 - python、scrapy

ImportError：Scrapyを使用している間、win32apiという名前のモジュールはありません - python、scrapy、scrapy-spider

どのようにScrapyバージョン0.12を取得するのですか？ - python、ダウンロード、バージョン、治療