Tôi đang cố gắng phản chiếu một blog, ví dụ www.example.com, với wget.
Tôi sử dụng wget với các tùy chọn sau (biến shell được thay thế chính xác):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
Blog chứa hình ảnh cư trú trên các tên miền khác.
Mặc dù tôi đã chỉ định -ptùy chọn (tải xuống tài sản trang được liên kết) những hình ảnh này không được tải xuống trừ khi tôi chỉ định rõ ràng từng tên miền trong -Dtùy chọn.
Nếu tôi bỏ qua -Dtùy chọn thì wget sẽ theo mọi liên kết bên ngoài www.example.comvà tải xuống toàn bộ internet.
Có thể wgetchỉ cần theo dõi mọi liên kết bên dưới www.example.comvà tải xuống từng tài sản bắt buộc của từng trang, cho dù những tài sản đó có nằm trên cùng một tên miền hay không mà tôi không phải chỉ định rõ ràng từng tên miền?
-D $domainscũng như -H. Không có -Hnó nên ở trong miền của bạn nhưng vẫn lấy tài sản trang trực tiếp, ngay cả khi chúng ở trên một tên miền khác.
wget -N -E -H -k -K -pđầu tiên, và đưa ra một kịch bản để tìm nạp các hình ảnh được liên kết bị thiếu.