wget có tùy chọn như -np
vậy sẽ vô hiệu hóa nhận tệp từ bất kỳ thư mục cha. Tôi cần một cái gì đó tương tự nhưng linh hoạt hơn một chút. Xem xét:
www.foo.com/bar1/bar2/bar3/index.html
Tôi muốn có được mọi thứ nhưng không "cao hơn" (trong hệ thống phân cấp cây) hơn bar2
(!). Vì vậy, bar2
cũng nên được lấy nhưng không bar1
.
Có cách nào để làm cho wget chọn lọc hơn?
Bối cảnh: Tôi đang cố gắng phản chiếu một trang web, với cấu trúc logic tương tự - điểm bắt đầu, sau đó lên, rồi xuống. Nếu có một công cụ khác hơn wget
, phù hợp hơn cho bố cục như vậy, xin vui lòng cho tôi biết là tốt.
Cập nhật
Hoặc thay vì chỉ định chiều sâu có thể, có thể một cái gì đó như "không có cha mẹ, trừ khi họ khớp với URL này hoặc URL đó".
Cập nhật 2
Có một số cấu trúc trên máy chủ, phải không? Bạn có thể hình dung nó như một cái cây. Vì vậy, thông thường với "--no-Parent", bạn bắt đầu từ một số điểm A và chỉ đi xuống.
Mong muốn của tôi, là khả năng đi lên - thể hiện bằng cách nói, nó được phép đi lên các nút X, hoặc (tương đương 100%) rằng nó được phép đi lên nút B (trong đó khoảng cách BA = X).
Trong mọi trường hợp, các quy tắc để đi xuống vẫn được xác định bởi người dùng (ví dụ: chỉ đi xuống theo cấp độ Y).
Làm thế nào để lưu trữ nó? Trên thực tế, đây không phải là câu hỏi - wget
mặc định tái tạo cấu trúc máy chủ, không có gì phải sợ ở đây, hoặc không cần phải sửa chữa bất cứ điều gì. Vì vậy, trong 2 từ - như thường lệ.
Cập nhật 3
Cấu trúc thư mục bên dưới - giả sử rằng trong mỗi thư mục chỉ có một tệp, trong R - R.html, v.v. Điều này được đơn giản hóa tất nhiên vì bạn có thể có nhiều hơn một trang.
R
/ \
B G
/ \
C F
/ \
A D
/
E
A (A.html) là điểm bắt đầu của tôi, X = 2 (vì vậy B là nút cấp cao nhất tôi muốn tìm nạp). Trong ví dụ cụ thể này, điều này có nghĩa là tìm nạp tất cả các trang trừ R.html và G.html. A.html được gọi là "điểm bắt đầu" bởi vì tôi phải bắt đầu từ nó, không phải từ B.
Cập nhật 4
Đặt tên được sử dụng từ Cập nhật 3.
wget TÙY CHỌN www.foo.com/B/C/A/A.html
Câu hỏi là các tùy chọn để có được tất cả các trang từ thư mục B trở xuống (biết rằng bạn phải bắt đầu từ A.html).
bar2
thư mục và tất cả nội dung của nó. Nếu đó không phải là nó, xin vui lòng làm rõ.
bar2
lấy nhưng khôngbar1
? Nơi nàobar2
sẽ cư trú? Điều gì xảy ra nếu hai hoặc nhiều thư mục mà bạn không muốn có các thư mục con có tên giống hệt nhau, liệu nội dung của chúng có được hợp nhất không? Gần như chắc chắn sẽ dễ dàng hơn khi chỉ cần lấy toàn bộ trang web chết tiệt và sau đó cắt tỉa / di chuyển mọi thứ xung quanh như bạn mong muốn.