/ / Jak mogę uzyskać wszystkie strony HTML z podfolderu strony za pomocą Perla? - perl, skrobanie w sieci

Jak mogę pobrać wszystkie strony HTML z podfolderu witryny z Perl? - perl, web-scraping

Czy możesz mi wskazać, jak uzyskać wszystkie pliki HTML w podfolderze i wszystkie foldery w witrynie? Na przykład: www.K.com/goo

Chcę wszystkich plików HTML znajdujących się na stronie: www.K.com/goo/1.html, ...... n.html

Ponadto, jeśli istnieją podfoldery, chcę je również uzyskać: www.K.com/goo/foo/1.html...n.html

Odpowiedzi:

2 dla odpowiedzi № 1

Zakładając, że nie masz dostępu do systemu plików serwera, chyba że każdy katalog ma indeks plików, które zawiera, nie można zagwarantować, że to osiągniesz.

Normalnym sposobem byłoby użycie robota indeksującego i mieć nadzieję, że wszystkie żądane pliki są połączone ze znajdowanymi stronami.


1 dla odpowiedzi nr 2

Patrzeć na lwp-mirror i podążaj za jego śladem.


0 dla odpowiedzi № 3

Sugerowałbym użycie wget program do pobierania strony, a nie perl, to nie jest tak dobrze dostosowane do problemu.


0 dla odpowiedzi nr 4

Istnieje również wiele przydatnych modułów na CPAN, które będą nazwane takimi rzeczami jak „Spider” lub „Crawler”. Ale ishnid ma rację. Znajdują tylko pliki, które są połączony skądś na stronie. Nie znajdą każdego pliku, który jest w systemie plików.


0 dla odpowiedzi № 5

Możesz także użyć curl, aby pobrać wszystkie pliki z folderu strony internetowej. Patrzeć na to man page i przejdź do sekcji -o / - output, która daje dobry pomysł na ten temat. Użyłem tego kilka razy.


-6 za odpowiedź № 6

Czytać perldoc File::Find, następnie use File::Find.