Cách lưu tất cả các trang web được liên kết từ một


15

Tôi muốn lưu trang web này và tất cả các trang mà nó liên kết đến. và hy vọng có cùng liên kết giữa các trang web đã lưu.

Có một số cách thay vì mở và lưu từng trang được liên kết?

Câu trả lời:


12

Bạn có thể làm những gì bạn thích với tiện ích dòng lệnh wget . Nếu bạn cung cấp -rtùy chọn này, nó sẽ tải xuống đệ quy các trang web. Ví dụ:

wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html

Điều này sẽ tải xuống trang web đó và bất cứ điều gì nó liên kết đến. Bạn cũng có thể làm cho nó chỉ lặp lại một số cấp độ nhất định, để làm điều này, bạn chỉ cần cung cấp -rmột số. Giống như vậy:

wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html

@Mark: Cảm ơn! Bây giờ tôi cố gắng tải xuống mat.gsia.cmu.edu/or class và các trang mà nó liên kết bằng lệnh wget -r mat.gsia.cmu.edu/or class . wget sẽ tạo một thư mục mat.gsia.cmu.edu theo thư mục tôi đã chỉ định và tải xuống các trang bên dưới nó. Nhưng các liên kết giữa các trang được tải xuống không có mat.gsia.cmu.edu trong đường dẫn của chúng, vì vậy nó trở thành một vấn đề và tôi không thể đi từ trang này sang trang khác bằng cách nhấp vào liên kết. Tôi đã tự hỏi tại sao và làm thế nào để giải quyết vấn đề? Cảm ơn!
Tim

Tôi không nghĩ rằng bạn có thể tải xuống liên kết bên ngoài, @Tim.
Wuffers

"Liên kết ngoài" có nghĩa là những người không theo con đường hiện tại?
Tim

@Tim: Bằng các liên kết bên ngoài, ý tôi là các liên kết giới thiệu bên ngoài mat.gsi.cmu.edu
Wuffers

1
@Tim: Ồ, được thôi. Xin lỗi vì sự hiểu lầm. Tôi nghĩ rằng bạn có thể thử tự chỉnh sửa các tệp HTML để kiểm tra và cố gắng làm cho chúng hoạt động.
Wuffers

10

Chủ đề này đã cũ, nhưng những người khác có thể nhìn vào nó. Cảm ơn bạn, Wuffers, đã chỉ cho tôi đi đúng hướng, nhưng, để mở rộng câu trả lời của Wuffers: Một phiên bản hiện đại của wget có một số tùy chọn hữu ích để đệ quy các liên kết và vá chúng thành các liên kết tương đối cục bộ để bạn có thể điều hướng một bản sao cục bộ của một trang web. Sử dụng tùy chọn -r để lặp lại, tùy chọn -k để vá các liên kết cục bộ, tùy chọn -H để truy cập vào các tên miền khác với tùy chọn ban đầu, tùy chọn -D để giới hạn các miền bạn truy cập, tùy chọn -l để giới hạn độ sâu đệ quy và tùy chọn -p để đảm bảo rằng các lá của giao dịch của bạn có mọi thứ chúng cần để hiển thị chính xác. Ví dụ: phần sau đây sẽ tải xuống một trang và mọi thứ nó liên kết ngay lập tức, làm cho nó có thể duyệt được cục bộ,

wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain

Sử dụng một lệnh tương tự như lệnh trên, tôi có thể tải xuống một đoạn của trang wiki, với các liên kết bên ngoài, vào đĩa cục bộ của tôi mà không cần tải xuống megabyte dữ liệu không liên quan. Bây giờ, khi tôi mở trang gốc trong trình duyệt của mình, tôi có thể điều hướng cây mà không cần kết nối Internet. Điều khó chịu duy nhất là trang gốc đã bị chôn vùi trong các thư mục con và tôi phải tạo một trang chuyển hướng cấp cao nhất để thuận tiện cho việc hiển thị. Nó có thể mất một số thử và sai để làm cho đúng. Đọc trang wget man và thử nghiệm.


4

Bạn có thể sử dụng trình thu thập dữ liệu trang web như omerack , miễn phí.

Từ trang web;

[omerack] cho phép bạn tải trang web World Wide Web từ Internet về thư mục cục bộ, xây dựng đệ quy tất cả các thư mục, nhận HTML, hình ảnh và các tệp khác từ máy chủ vào máy tính của bạn. HTTrack sắp xếp cấu trúc liên kết tương đối của trang web gốc. Chỉ cần mở một trang của trang web "nhân đôi" trong trình duyệt của bạn và bạn có thể duyệt trang web từ liên kết này đến liên kết khác, như thể bạn đang xem nó trực tuyến.


1
+1 ứng dụng tuyệt vời! Nhưng nó cũng lấy tất cả các tệp zip được liên kết, điều mà tôi không muốn. Nhưng sau đó tôi có lẽ nên đọc hướng dẫn trước!
finlaybob

Yup, nó có thể / sẽ theo tất cả các liên kết vì vậy sẽ tải xuống các tập tin. (@Finlaybob bạn có biết trang chủ được liệt kê trong hồ sơ của bạn đã bị hack không?)
RJFalconer

Tôi đã không! Tôi sẽ xem xét nó - cảm ơn vì đã cho tôi biết!
finlaybob
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.