Pomoc pri programovaní, odpovede na otázky / Scrapy / Zabráňte tomu, aby sa do vyrovnávacej pamäte pridávalo zoškrabanie

Zabráňte pridávaniu odpovede scrapy do vyrovnávacej pamäte cache

Prechádzam web, ktorý vracia stránky s kódom captcha a stavovým kódom 200, čo naznačuje, že je všetko v poriadku. To spôsobí, že sa stránka vloží do vyrovnávacej pamäte cache.

Chcem tieto stránky znova indexovo prehľadať neskôr. Ale ak sú v pamäti cache, nevykúpia sa.

Je možné preťažiť funkciu process_response z httpcache middleware alebo hľadať konkrétny reťazec v html reponse a prepísať 200 kód chybovým kódom?

Aký by bol najjednoduchší spôsob, ako zabrániť tomu, aby boli škrabance vložené do vyrovnávacej pamäte.

odpovede:

2 pre odpoveď č. 1

Scrapy použitie scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware na vyrovnávaciu pamäť http. Ak chcete ignorovať toto ukladanie do vyrovnávacej pamäte, stačí nastaviť kľúčové slovo meta žiadosti dont_cache Pravda ako:

yield Request(url, meta={"dont_cache": True})

Vyššie uvedené dokumenty tiež hovoria o tom, ako ho zakázať v celom projekte s nastavením, ak vás to tiež zaujíma.

Súvisiace otázky

Ako nastaviť cookies v Scrapy + Splash, keď javascript robí viac požiadaviek? - scrapy, web-crawler, scrapy-splash

Nechajte Scrapy pokračovať v plazme z posledného bodu zlomu - scrapy

Nainštalujte scrapy na CentOS s viacerými verziami pythonu - python, scrapy, pip

Chyba pri spustení prvého projektu scrapy - python, web, scrapy, pip

Scrapy nie je správne nainštalovaný na mac? - python, python-2.7, scrapy

"Scrapy: command not found" pri prechode cez skript shell - python, linux, bash, shell, web-scraping

Spustenie scrapy pavúka na viacerých strojoch (paralelné škrabanie) - python, scrapy

Scrap shell stále vracia neplatnú syntax v termináli - python, shell, terminál, scrapy

Pridávanie položiek do JSON Array v Scrapy? - python, array, json, scrapy

Poradie prehliadania v Scrapy - python, scrapy

Určite koreňový adresár scrapy - python, scraping obrazovky, scrapy

Modul Scrapy nebol nájdený pre skript pre prehľadávanie webu - python, scrapy, web-crawler

Nastavenia scrapy s funkciou ENV SCRAPY_SETTINGS_MODULE nefungujú - python, scrapy

Ako poslať poštové dáta do start_urls scrapy pavúka - python, web-scraping, scrapy, scrapy-spider

Získajte typ MIME so Scrapy - python, scrapy, mime-types

Scrapy na Cloud - python, cloud, scrapy

skrytie zabrániť sťahovaniu súborov, ak už boli stiahnuté - python, scrapy

ImportError: Žiadny modul s názvom win32api pri používaní Scrapy - python, scrapy, scrapy-spider

Ako získať Scrapy verziu 0.12? - python, sťahovanie, verzia, scrapy

ako spustiť shell "URL" s notebookom - python-2.7, scrapy, ipython-notebook