Tải về đệ quy với wget


32

Tôi gặp vấn đề với lệnh wget sau:

wget -nd -r -l 10 http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Nó nên tải xuống đệ quy tất cả các tài liệu được liên kết trên web gốc nhưng nó chỉ tải xuống hai tệp ( index.htmlrobots.txt).

Làm thế nào tôi có thể đạt được tải xuống đệ quy của trang web này ?

Câu trả lời:


40

wgettheo mặc định, tôn vinh tiêu chuẩn robot.txt để thu thập dữ liệu các trang, giống như các công cụ tìm kiếm và đối với archive.org, nó không cho phép toàn bộ / web / thư mục con. Để ghi đè, sử dụng -e robots=off,

wget -nd -r -l 10 -e robots=off http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Cảm ơn bạn. Có một số tùy chọn để lưu trữ mỗi liên kết chỉ một lần? Có lẽ tôi nên giảm 10xuống số thấp hơn, nhưng thật khó đoán. Bây giờ có một tập tin introduction.html, introduction.html.1, introduction.html.2và tôi thay vì kết thúc quá trình.
xralf

Và các liên kết đang trực tiếp đến web. Là --mirrortùy chọn cho các liên kết để trực tiếp đến hệ thống tập tin?
xralf

1
@xralf: tốt, bạn đang sử dụng -nd, vì vậy các index.htmls khác nhau được đặt trong cùng một thư mục và không có -k, bạn sẽ không nhận được các liên kết viết lại.
Ulrich Schwarz

12
$ wget --random-wait -r -p -e robots=off -U Mozilla \
    http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Tải về đệ quy nội dung của url.

--random-wait - wait between 0.5 to 1.5 seconds between requests.
-r - turn on recursive retrieving.
-e robots=off - ignore robots.txt.
-U Mozilla - set the "User-Agent" header to "Mozilla". Though a better choice is a real User-Agent like "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729)".

Một số tùy chọn hữu ích khác là:

--limit-rate=20k - limits download speed to 20kbps.
-o logfile.txt - log the downloads.
-l 0 - remove recursion depth (which is 5 by default).
--wait=1h - be sneaky, download one file every hour.

-l 0 - remove recursion depth (which is 5 by default)1
Dani
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.