Tôi thường sử dụng httrack
để tải xuống / phản chiếu nội dung web từ một trang web.
$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0
Sau khi nó chạy, bạn để lại một cấu trúc thư mục cục bộ và có thể duyệt được. Ví dụ:
$ ls -l
total 304
-rw-r--r-- 1 saml saml 4243 Aug 17 10:20 backblue.gif
-rw-r--r-- 1 saml saml 828 Aug 17 10:20 fade.gif
drwx------ 3 saml saml 4096 Aug 17 10:20 hts-cache
-rw-rw-r-- 1 saml saml 233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r-- 1 saml saml 1517 Aug 17 10:20 hts-log.txt
-rw------- 1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r-- 1 saml saml 5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml 4096 Aug 17 10:21 2011.example.com
Khi tải xuống, bạn sẽ thấy loại đầu ra sau:
Bytes saved: 21,89KiB Links scanned: 12/45 (+4)
Time: 2s Files written: 4
Transfer rate: 2,65KiB/s (2,65KiB/s) Files updated: 1
Active connections: 1 Errors: 7
Current job: parsing HTML file (57%)
request - 2011.example.com/cgi-bin/hostnames.pl 0B / 8,00KiB
Nó có thể được làm nền và / hoặc hủy bỏ và sau đó được nối lại. Đây chỉ là phần nổi của tảng băng về các tính năng của nó. Ngoài ra còn có GUI cho cả thiết lập tải xuống và theo dõi nó khi tiến trình.
Có tài liệu phong phú trên httrack
trang web và bằng cách googling.