Phản chiếu một blog với wget


9

Tôi đang cố gắng phản chiếu một blog, ví dụ www.example.com, với wget.

Tôi sử dụng wget với các tùy chọn sau (biến shell được thay thế chính xác):

wget -m -p -H -k -E -np \
    -w 1 \
    --random-wait \
    --restrict-file-names=windows \
    -P $folder \
    -Q${quota}m \
    -t 3 \
    --referer=$url \
    -U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
    -e robots=off \
    -D $domains
    -- $url

Blog chứa hình ảnh cư trú trên các tên miền khác.

Mặc dù tôi đã chỉ định -ptùy chọn (tải xuống tài sản trang được liên kết) những hình ảnh này không được tải xuống trừ khi tôi chỉ định rõ ràng từng tên miền trong -Dtùy chọn.

Nếu tôi bỏ qua -Dtùy chọn thì wget sẽ theo mọi liên kết bên ngoài www.example.comvà tải xuống toàn bộ internet.

Có thể wgetchỉ cần theo dõi mọi liên kết bên dưới www.example.comvà tải xuống từng tài sản bắt buộc của từng trang, cho dù những tài sản đó có nằm trên cùng một tên miền hay không mà tôi không phải chỉ định rõ ràng từng tên miền?


Tôi cũng muốn tìm một câu trả lời tốt cho câu hỏi này. Tôi đã gặp tình huống tương tự và không thể tìm thấy một lời mời wget nào đã làm điều đó. Tôi đã kết thúc bằng cách sử dụng wget -N -E -H -k -K -pđầu tiên, và đưa ra một kịch bản để tìm nạp các hình ảnh được liên kết bị thiếu.
lemonsqueeze

5
Theo điều này , omerack là một kẻ giết người cho việc này. Tôi sẽ cho nó một lần bắn thay vì wget.
lemonsqueeze

Giả sử blog của bạn (trừ tài sản trang) không trải dài trên nhiều tên miền, hãy thử xóa cả hai -D $domainscũng như -H. Không có -Hnó nên ở trong miền của bạn nhưng vẫn lấy tài sản trang trực tiếp, ngay cả khi chúng ở trên một tên miền khác.
blubberdiblub

Câu trả lời:


1

Không, cách duy nhất là chỉ định các tên miền mà bạn muốn theo dõi bằng cách sử dụng -D hoặc --domains = [danh sách tên miền] (dưới dạng danh sách được phân tách bằng dấu phẩy)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.