Tải xuống TẤT CẢ các thư mục, thư mục con và tệp bằng Wget


20

Tôi đã sử dụng Wget và tôi đã gặp phải một vấn đề. Tôi có một trang web, có một số thư mục và thư mục con trong trang web. Tôi cần tải xuống tất cả các nội dung trong mỗi thư mục và thư mục con. Tôi đã thử một số phương pháp bằng Wget và khi tôi kiểm tra hoàn thành, tất cả những gì tôi có thể thấy trong các thư mục là một tệp "chỉ mục". Tôi có thể nhấp vào tệp chỉ mục và nó sẽ đưa tôi đến các tệp, nhưng tôi cần các tệp thực tế.

Có ai có một lệnh cho Wget mà tôi đã bỏ qua, hoặc có một chương trình khác tôi có thể sử dụng để có được tất cả các thông tin này?

ví dụ trang web:

www.mysite.com/Pictures/ trong Ảnh DIr, có một số thư mục .....

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Manager/North America / California / JoeUser.jpg

Tôi cần tất cả các tập tin, thư mục, vv .....


1
Bạn đã đọc tài liệu cho wget, cụ thể để sử dụng đệ quy ?
Moses

Cũng có một bài viết trong tài liệu ở đây có vẻ phù hợp.
Moses

Câu trả lời:


37

Tôi muốn cho rằng bạn chưa thử điều này:

wget -r --no-cha mẹ http://www.mysite.com/Pictures/

hoặc để truy xuất nội dung mà không cần tải xuống các tệp "index.html":

wget -r --no-Parent --reject "index.html *" http://www.mysite.com/Pictures/

Tham khảo: Sử dụng wget để tìm nạp đệ quy một thư mục chứa các tệp tùy ý trong đó


1
Cảm ơn, tôi đã chạy lệnh đó nhiều lần, nhưng tôi đã không để lệnh kết thúc cho đến hết. Tôi đã theo dõi bên, và để cho lệnh thực sự kết thúc, và nó đã sao chép TẤT CẢ các thư mục Đầu tiên, sau đó nó quay lại và sao chép TẤT CẢ các tệp vào thư mục.
Horrid Henry

chỉ cần cho bạn thấy, nếu tôi có kiên nhẫn, tôi sẽ làm điều này 2 tuần trước .... LOL. :) cảm ơn lần nữa
Horrid Henry

@Horrid Henry, xin chúc mừng!
Felix Imafidon

Tôi sử dụng lệnh tương tự nhưng chỉ nhận được một tệp index.html!
shenkwen

20

tôi sử dụng wget -rkpN -e robots=off http://www.example.com/

-r có nghĩa là đệ quy

-kcó nghĩa là chuyển đổi liên kết. Vì vậy, các liên kết trên trang web sẽ là localhost thay vì example.com/bla

-p có nghĩa là có được tất cả các tài nguyên trang web để có được hình ảnh và tệp javascript để làm cho trang web hoạt động chính xác.

-N là để truy xuất dấu thời gian để nếu các tệp cục bộ mới hơn các tệp trên trang web từ xa bỏ qua chúng.

-e là một tùy chọn cờ cần có ở đó cho robots=off để hoạt động.

robots=off có nghĩa là bỏ qua tập tin robot.

Tôi cũng đã có -ctrong lệnh này vì vậy nếu kết nối của họ bị rớt nếu sẽ tiếp tục nơi nó dừng lại khi tôi chạy lại lệnh. Tôi hình dung -Nsẽ tốt với-c


Bạn có thể thêm một vài câu vào câu trả lời của mình để giải thích những cài đặt tham số này làm gì không?
fixer1234

lấy làm tiếc. chắc chắn hãy thêm chúng ngay bây giờ
Tim Jonas

Tôi đã cập nhật câu trả lời của mình
Tim Jonas

Cảm ơn. Vì vậy, -c nên là một phần của ví dụ lệnh của bạn hoặc được thêm tùy chọn sau khi tải xuống không đầy đủ? Ngoài ra, -e là để lệnh được ưu tiên hơn bất kỳ thứ gì có thể có trong .wgetrc? Và đó có phải là một lỗi đánh máy cho -r (đệ quy so với ẩn) không?
fixer1234

Vâng, đó là chính xác. Có -esẽ thực thi lệnh như thể nó là một phần của .wgetrc Tôi đã thêm nó vào đó vì robots=offdường như không hoạt động nếu không có nó ở đó.
Tim Jonas

1

wget -m -A * -pk -e robot = off www.mysite.com/ điều này sẽ tải xuống tất cả các loại tệp cục bộ và trỏ đến chúng từ tệp html
và nó sẽ bỏ qua tệp robot

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.