Tôi đang cố gắng phản chiếu một blog, ví dụ www.example.com
, với wget
.
Tôi sử dụng wget với các tùy chọn sau (biến shell được thay thế chính xác):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
Blog chứa hình ảnh cư trú trên các tên miền khác.
Mặc dù tôi đã chỉ định -p
tùy chọn (tải xuống tài sản trang được liên kết) những hình ảnh này không được tải xuống trừ khi tôi chỉ định rõ ràng từng tên miền trong -D
tùy chọn.
Nếu tôi bỏ qua -D
tùy chọn thì wget sẽ theo mọi liên kết bên ngoài www.example.com
và tải xuống toàn bộ internet.
Có thể wget
chỉ cần theo dõi mọi liên kết bên dưới www.example.com
và tải xuống từng tài sản bắt buộc của từng trang, cho dù những tài sản đó có nằm trên cùng một tên miền hay không mà tôi không phải chỉ định rõ ràng từng tên miền?
-D $domains
cũng như -H
. Không có -H
nó nên ở trong miền của bạn nhưng vẫn lấy tài sản trang trực tiếp, ngay cả khi chúng ở trên một tên miền khác.
wget -N -E -H -k -K -p
đầu tiên, và đưa ra một kịch bản để tìm nạp các hình ảnh được liên kết bị thiếu.