Làm thế nào để lưu trữ toàn bộ trang web?


Câu trả lời:


11

Wayback Machine không cung cấp tính năng như vậy, tôi đã tìm thấy một số cách giải quyết.

  1. Đầu tiên, phản chiếu trang web bằng cách sử dụng wget, ví dụ

    wget -m https://example.com/
    
  2. Sau đó sử dụng curlđể lưu trữ tất cả các trang từng trang một mà bạn đã tải xuống.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
    

    Lưu ý: Bạn có thể thay đổi .htmlđể .php, hoặc bao gồm các loại nhất định của các file.


Nếu trang web không sử dụng các tiện ích mở rộng (như html hoặc php - như SE được thiết lập), làm thế nào để bạn điều chỉnh lệnh của mình?
db

2
Bạn có thể thay đổi -name "*.html"để -type fbao gồm tất cả các file.
kenorb

Làm thế nào để điều này làm việc với các tham số truy vấn?
Mithical

6

Nếu bạn muốn lưu trữ một trang web nhỏ, Nhóm Lưu trữ sẽ duy trì ArchiveBot , bot IRC nơi bạn có thể yêu cầu thu thập dữ liệu trang web. Sau đó, Nhóm Lưu trữ sẽ gửi các trang được thu thập thông tin đến Wayback Machine của Internet Archive.


Điều này là vô cùng hữu ích.
Chàng trai

1

Wayback Machine không cung cấp cách gửi toàn bộ trang web, chỉ một trang duy nhất như bạn đã tìm thấy. Điều này được chạm vào trong một vài điểm của Câu hỏi thường gặp về Wayback Machine của họ :

Tôi có thể thêm các trang vào Wayback Machine không?

Trên https://archive.org/web, bạn có thể sử dụng tính năng "Lưu trang ngay bây giờ" để lưu một trang cụ thể một lần. Điều này hiện không thêm URL vào bất kỳ thu thập thông tin nào trong tương lai và cũng không lưu nhiều hơn một trang đó. Nó không lưu nhiều trang, thư mục hoặc toàn bộ trang web .

Làm cách nào tôi có thể đưa trang web của mình vào Wayback Machine?

Phần lớn dữ liệu web được lưu trữ của chúng tôi đến từ thu thập dữ liệu của chúng tôi hoặc từ thu thập dữ liệu của Alexa Internet. Cả hai tổ chức đều không có "thu thập dữ liệu trang web của tôi ngay bây giờ!" quy trình nộp hồ sơ . Thu thập dữ liệu của Internet Archive có xu hướng tìm các trang web được liên kết tốt từ các trang web khác. Cách tốt nhất để đảm bảo rằng chúng tôi tìm thấy trang web của bạn là đảm bảo nó được bao gồm trong các thư mục trực tuyến và các trang web tương tự / liên quan đến bạn.


1
Đây không phải là một câu trả lời cho câu hỏi. Chỉ vì không có cách chính thức để làm điều đó, nhiệm vụ không phải là không thể thực hiện. Trong thực tế, nó khá dễ dàng để tạo ra một kịch bản có thêm các liên kết đệ quy.
db

@db, câu trả lời của kenorb dường như là những gì bạn đang yêu cầu. Ngẫu nhiên, câu trả lời này hữu ích hơn với tôi vào lúc này, vì tôi chỉ muốn The WaybackMachine chụp lại một trang cho tôi bây giờ.
cp.engr

1

Bài viết này trên archive.org cũng đề xuất một dịch vụ trả phí sẽ thực hiện thu thập thông tin cho bạn thường xuyên như bạn muốn:

  1. Đăng ký Tài khoản Lưu trữ-Nó

Lưu trữ-Đây là một dịch vụ thuê bao được cung cấp bởi Internet Archive cho phép bạn chạy các dự án thu thập thông tin của riêng bạn mà không cần bất kỳ chuyên môn kỹ thuật nào. Hãy cho chúng tôi biết những gì cần thu thập thông tin và tần suất thu thập thông tin và chúng tôi thực hiện thu thập thông tin và đưa kết quả vào Wayback Machine.

Đây có thể không phải là những gì bạn đang theo đuổi, nhưng đối với một số doanh nghiệp, dịch vụ này có thể hữu ích. Tôi cho rằng nó giúp tài trợ cho archive.org, mà nếu không thì là miễn phí.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.