Czy możesz mi wskazać, jak uzyskać wszystkie pliki HTML w podfolderze i wszystkie foldery w witrynie? Na przykład: www.K.com/goo
Chcę wszystkich plików HTML znajdujących się na stronie: www.K.com/goo/1.html, ...... n.html
Ponadto, jeśli istnieją podfoldery, chcę je również uzyskać: www.K.com/goo/foo/1.html...n.html
Odpowiedzi:
2 dla odpowiedzi № 1Zakładając, że nie masz dostępu do systemu plików serwera, chyba że każdy katalog ma indeks plików, które zawiera, nie można zagwarantować, że to osiągniesz.
Normalnym sposobem byłoby użycie robota indeksującego i mieć nadzieję, że wszystkie żądane pliki są połączone ze znajdowanymi stronami.
1 dla odpowiedzi nr 2
Patrzeć na lwp-mirror i podążaj za jego śladem.
0 dla odpowiedzi № 3
Sugerowałbym użycie wget program do pobierania strony, a nie perl, to nie jest tak dobrze dostosowane do problemu.
0 dla odpowiedzi nr 4
Istnieje również wiele przydatnych modułów na CPAN, które będą nazwane takimi rzeczami jak „Spider” lub „Crawler”. Ale ishnid ma rację. Znajdują tylko pliki, które są połączony skądś na stronie. Nie znajdą każdego pliku, który jest w systemie plików.
0 dla odpowiedzi № 5
Możesz także użyć curl, aby pobrać wszystkie pliki z folderu strony internetowej. Patrzeć na to man page i przejdź do sekcji -o / - output, która daje dobry pomysł na ten temat. Użyłem tego kilka razy.
-6 za odpowiedź № 6
Czytać perldoc File::Find
, następnie use File::Find
.