Làm cách nào để tải xuống một trang web từ archive.org Wayback Machine?


84

Tôi muốn nhận tất cả các tệp cho một trang web nhất định tại archive.org. Lý do có thể bao gồm:

  • tác giả ban đầu đã không lưu trữ trang web của riêng mình và hiện đang ngoại tuyến, tôi muốn tạo bộ đệm công khai từ nó
  • Tôi là tác giả ban đầu của một số trang web và mất một số nội dung. Tôi muốn phục hồi nó
  • ...

Làm thế nào để làm điều đó ?

Cân nhắc rằng máy quay ngược của archive.org rất đặc biệt: các liên kết trang web không trỏ đến chính kho lưu trữ, mà là một trang web có thể không còn ở đó nữa. JavaScript được sử dụng phía máy khách để cập nhật các liên kết, nhưng một mẹo như wget đệ quy sẽ không hoạt động.


14
Tôi đã gặp phải vấn đề tương tự và tôi đã mã hóa một viên ngọc quý. Để cài đặt : gem install wayback_machine_downloader. Chạy wayback_machine_doader với url cơ sở của trang web bạn muốn truy xuất dưới dạng tham số: wayback_machine_downloader http://example.comThông tin thêm: github.com/hartator/wayback_machine_doader
Trình duyệt

3
Hướng dẫn từng bước cho người dùng windows (win8.1 64 bit đối với tôi) mới đối với Ruby, đây là những gì tôi đã làm để làm cho nó hoạt động: 1) Tôi đã cài đặt rubyinstaller.org/doads sau đó chạy "rubyinstaller-2.2.3-x64 .exe "2) đã tải xuống tệp zip github.com/hartator/wayback-machine-doader/archive/, 3) giải nén zip trong máy tính của tôi 4) tìm kiếm trong menu start start cho" Bắt đầu nhắc lệnh với Ruby "(để được tiếp tục)
Erb

3
5) làm theo hướng dẫn của github.com/hartator/wayback_machine_doader (e; .g: sao chép dán "gem install wayback_machine_doader" này vào dấu nhắc. Nhấn enter và nó sẽ cài đặt chương trình ... sau đó làm theo hướng dẫn "Cách sử dụng"). 6) khi trang web của bạn bị bắt, bạn sẽ tìm thấy các tệp vào C: \ Users \ Yourusername \ website
Erb

Câu trả lời:


64

Tôi đã thử nhiều cách khác nhau để tải xuống một trang web và cuối cùng tôi đã tìm thấy trình tải xuống máy quay ngược - được đề cập bởi Hartator trước đây (vì vậy tất cả các khoản tín dụng đều được gửi cho anh ấy), nhưng tôi đơn giản không nhận thấy bình luận của anh ấy cho câu hỏi. Để tiết kiệm thời gian cho bạn, tôi quyết định thêm đá quý wayback_machine_doader làm câu trả lời riêng ở đây.

Trang web tại http://www.archiveteam.org/index.php?title=Restoring liệt kê những cách này để tải xuống từ archive.org:

  • Wayback Machine Downloader , công cụ nhỏ trong Ruby để tải xuống bất kỳ trang web nào từ Wayback Machine. Miễn phí và nguồn mở. Lựa chọn của tôi!
  • Warrick - Trang web chính có vẻ không hoạt động.
  • Trình tải xuống Wayback , một dịch vụ sẽ tải xuống trang web của bạn từ Wayback Machine và thậm chí thêm một plugin cho Wordpress. Không miễn phí.

tôi cũng đã viết một "trình tải xuống ngược", bằng php, tải xuống các tài nguyên, điều chỉnh các liên kết, v.v .: gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik

@ComicSans, Trên trang bạn đã liên kết, Nhóm Lưu trữ lấy gì ?
Pacerier

1
Tháng 10 năm 2018, Wayback Machine Downloader vẫn hoạt động.
chàng người Brazil đó

@Pacerier có nghĩa là (bộ) các tệp WARC được tạo bởi Nhóm Lưu trữ (và thường được đưa vào máy quay ngược của Internet Archive), xem archive.org/details/archiveteam
Nemo

13

Điều này có thể được thực hiện bằng cách sử dụng tập lệnh bash shell kết hợp vớiwget .

Ý tưởng là sử dụng một số tính năng URL của máy quay ngược:

  • http://web.archive.org/web/*/http://domain/*sẽ liệt kê tất cả các trang đã lưu từ http://domain/đệ quy. Nó có thể được sử dụng để xây dựng một chỉ mục các trang để tải xuống và tránh các heuristic để phát hiện các liên kết trong các trang web. Đối với mỗi liên kết, cũng có ngày của phiên bản đầu tiên và phiên bản cuối cùng.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pagesẽ liệt kê tất cả các phiên bản của http://domain/pagenăm YYYY. Trong trang đó, các liên kết cụ thể đến các phiên bản có thể được tìm thấy (với dấu thời gian chính xác)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pagesẽ trả về trang chưa sửa đổi http://domain/pagetại dấu thời gian đã cho. Lưu ý mã thông báo id_ .

Đây là những điều cơ bản để xây dựng một tập lệnh để tải xuống mọi thứ từ một miền nhất định.


7
Bạn thực sự nên sử dụng API thay vì archive.org/help/wayback_api.php Các trang trợ giúp Wikipedia dành cho người chỉnh sửa, không dành cho công chúng. Vì vậy, trang đó tập trung vào giao diện đồ họa, vừa thay thế vừa không phù hợp cho nhiệm vụ này.
Nemo

Có lẽ sẽ dễ dàng hơn khi chỉ cần lấy URL (thích http://web.archive.org/web/19981202230410/http://www.google.com/) và thêm id_vào cuối "số ngày". Sau đó, bạn sẽ nhận được một cái gì đó như http://web.archive.org/web/19981202230410id_/http://www.google.com/.
haykam

1
Một kịch bản python cũng có thể được tìm thấy ở đây: gist.github.com/ingamedeo/ Kẻ
Amedeo Baragiola

4

Có một công cụ được thiết kế riêng cho mục đích này, Warrick: https://code.google.com.vn/p/warrick/

Nó dựa trên giao thức Memento.


3
Theo như tôi quản lý để sử dụng cái này (vào tháng 5 năm 2017), nó chỉ phục hồi những gì archive.is nắm giữ, và gần như bỏ qua những gì có tại archive.org; họ cũng cố gắng lấy tài liệu và hình ảnh từ bộ đệm Google / Yahoo nhưng hoàn toàn thất bại. Warrick đã được nhân bản nhiều lần trên GitHub kể từ khi Google Code ngừng hoạt động, có thể có một số phiên bản tốt hơn ở đó.
Gwyneth Llewelyn

0

Bạn có thể làm điều này dễ dàng với wget.

wget -rc --accept-regex '.*ROOT.*' START

Trong trường hợp ROOTlà URL thư mục gốc của trang web và STARTlà địa chỉ bắt đầu. Ví dụ:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Lưu ý rằng bạn nên bỏ qua khung gói của kho lưu trữ Web cho STARTURL. Trong hầu hết các trình duyệt, bạn có thể nhấp chuột phải vào trang và chọn "Chỉ hiển thị khung này".

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.