/ / scrapy zabraňuje sťahovaniu súborov, ak už boli stiahnuté - python, scrapy

skrytie zabrániť sťahovaniu súborov, ak už boli stiahnuté - python, scrapy

Vytvoril som škrabku, ktorá stiahne všetky súbory z webovej stránky a uloží odkazy na stiahnutie do priečinka JSON súbor pomocou potrubia položky. Ako zabrániť škrabke v sťahovaní toho istého súboru znova, ak je jeho odkaz nájdený v systéme Windows JSON súboru.

odpovede:

1 pre odpoveď č. 1

Skvelá otázka! Faktom je, že to, čo chcete urobiť, je dosť zložité robiť programovo generickým spôsobom (musíte napísať vlastný middleware alebo prispôsobiť RFPDupeFilter tu , Ale máš veľké šťastie. Ďalším všeobecným spôsobom, ako dosiahnuť presne to, čo chcete, je práve pozastavenie a obnovenie indexového prehľadávania ktorý je už implementovaný a testovaný.