/ / scrapy zapobiega pobieraniu plików, jeśli są już pobrane - python, scrapy

scrapy zapobiegają pobieraniu plików, jeśli zostały już pobrane - python, scrapy

Stworzyłem skrobaczkę, która pobiera wszystkie pliki ze strony internetowej i zapisuje linki pobierania w pliku JSON plik za pomocą potoku elementu. Jak zapobiec ponownemu pobieraniu przez zgarniacz tego samego pliku, jeśli jego link znajduje się w pliku JSON plik.

Odpowiedzi:

1 dla odpowiedzi № 1

Świetne pytanie! Faktem jest, że to, co chcesz zrobić, jest dość skomplikowane, aby zrobić programowo w sposób ogólny (musisz napisać własne oprogramowanie pośrednie lub dostosować RFPDupeFilter tutaj . Ale masz szczęście. Innym ogólnym sposobem na osiągnięcie dokładnie tego, czego chcesz, jest właśnie wstrzymywanie i wznawianie indeksowania który jest już wdrożony i przetestowany.