Nếu bạn yêu cầu nội dung gzip'ed (sử dụng tiêu đề accept-mã hóa: gzip, đúng), thì tôi hiểu rằng wget không thể đọc nội dung. Vì vậy, bạn sẽ kết thúc với một tệp duy nhất, được nén trên đĩa, cho trang đầu tiên bạn nhấn, nhưng không có nội dung nào khác.
tức là bạn không thể sử dụng wget để yêu cầu nội dung được nén và lặp lại toàn bộ trang web cùng một lúc.
Tôi nghĩ rằng có một bản vá cho phép wget hỗ trợ chức năng này nhưng nó không có trong phiên bản phân phối mặc định.
Nếu bạn bao gồm cờ -S, bạn có thể biết liệu máy chủ web có phản hồi với đúng loại nội dung hay không. Ví dụ,
wget -S --header="accept-encoding: gzip" wordpress.com
--2011-06-17 16:06:46-- http://wordpress.com/
Resolving wordpress.com (wordpress.com)... 72.233.104.124, 74.200.247.60, 76.74.254.126
Connecting to wordpress.com (wordpress.com)|72.233.104.124|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Server: nginx
Date: Fri, 17 Jun 2011 15:06:47 GMT
Content-Type: text/html; charset=UTF-8
Connection: close
Vary: Accept-Encoding
Last-Modified: Fri, 17 Jun 2011 15:04:57 +0000
Cache-Control: max-age=190, must-revalidate
Vary: Cookie
X-hacker: If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header.
X-Pingback: http://wordpress.com/xmlrpc.php
Link: <http://wp.me/1>; rel=shortlink
X-nananana: Batcache
Content-Encoding: gzip
Length: unspecified [text/html]
Mã hóa nội dung ghi rõ gzip, tuy nhiên đối với linux.about.com (hiện tại),
wget -S --header="accept-encoding: gzip" linux.about.com
--2011-06-17 16:12:55-- http://linux.about.com/
Resolving linux.about.com (linux.about.com)... 207.241.148.80
Connecting to linux.about.com (linux.about.com)|207.241.148.80|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Date: Fri, 17 Jun 2011 15:12:56 GMT
Server: Apache
Set-Cookie: TMog=B6HFCs2H20kA1I4N; domain=.about.com; path=/; expires=Sat, 22-Sep-12 14:19:35 GMT
Set-Cookie: Mint=B6HFCs2H20kA1I4N; domain=.about.com; path=/
Set-Cookie: zBT=1; domain=.about.com; path=/
Vary: *
PRAGMA: no-cache
P3P: CP="IDC DSP COR DEVa TAIa OUR BUS UNI"
Cache-Control: max-age=-3600
Expires: Fri, 17 Jun 2011 14:12:56 GMT
Connection: close
Content-Type: text/html
Length: unspecified [text/html]
Đó là trả lại văn bản / html.
Vì một số trình duyệt cũ hơn vẫn có vấn đề với nội dung được mã hóa gzip, nhiều trang web chỉ kích hoạt nó dựa trên nhận dạng trình duyệt. Họ thường tắt nó theo mặc định và chỉ tắt nó khi họ biết trình duyệt có thể hỗ trợ nó - và họ thường không bao gồm wget trong danh sách đó. Điều này có nghĩa là bạn có thể thấy wget không bao giờ trả lại nội dung gzip ngay cả khi trang web dường như làm như vậy cho trình duyệt của bạn.