HTTP không thực sự có một khái niệm về thư mục. Các dấu gạch chéo khác với ba ( http://example.com/
) đầu tiên không có bất kỳ ý nghĩa đặc biệt nào ngoại trừ ..
các URL tương đối. Vì vậy, trừ khi máy chủ tuân theo một định dạng cụ thể, không có cách nào để tải xuống tất cả các tệp trong thư mục được chỉ định.
Nếu bạn muốn tải xuống toàn bộ trang web, cách tốt nhất của bạn là duyệt qua tất cả các liên kết trong trang chính theo cách đệ quy. Curl không thể làm điều đó, nhưng wget có thể. Điều này sẽ hoạt động nếu trang web không quá năng động (đặc biệt, wget sẽ không thấy các liên kết được xây dựng bằng mã Javascript). Bắt đầu với wget -r http://example.com/
và xem bên dưới Tùy chọn truy hồi đệ quy và các tùy chọn chấp nhận đệ quy và từ chối trong các hướng dẫn wget để biết thêm các tùy chọn phù hợp (độ sâu đệ quy, danh sách loại trừ, v.v.).
Nếu trang web cố gắng chặn tải xuống tự động, bạn có thể cần thay đổi chuỗi tác nhân người dùng ( -U Mozilla
) và bỏ qua robots.txt
(tạo tệp trống example.com/robots.txt
và sử dụng -nc
tùy chọn để wget không cố tải xuống từ máy chủ).