Tôi muốn nhận tất cả các tệp cho một trang web nhất định tại archive.org. Lý do có thể bao gồm:
- tác giả ban đầu đã không lưu trữ trang web của riêng mình và hiện đang ngoại tuyến, tôi muốn tạo bộ đệm công khai từ nó
- Tôi là tác giả ban đầu của một số trang web và mất một số nội dung. Tôi muốn phục hồi nó
- ...
Làm thế nào để làm điều đó ?
Cân nhắc rằng máy quay ngược của archive.org rất đặc biệt: các liên kết trang web không trỏ đến chính kho lưu trữ, mà là một trang web có thể không còn ở đó nữa. JavaScript được sử dụng phía máy khách để cập nhật các liên kết, nhưng một mẹo như wget đệ quy sẽ không hoạt động.
gem install wayback_machine_downloader
. Chạy wayback_machine_doader với url cơ sở của trang web bạn muốn truy xuất dưới dạng tham số:wayback_machine_downloader http://example.com
Thông tin thêm: github.com/hartator/wayback_machine_doader