Sự cố khi sử dụng wget hoặc omerack để phản chiếu trang web lưu trữ


12

Tôi đang cố gắng sử dụng wget để tạo một bản sao cục bộ của một trang web. Nhưng tôi thấy rằng tôi không nhận được tất cả các trang liên kết.

Đây là trang web

http://web.archive.org/web/20110722080716/http://cst-www.nrl.neef.mil/lattice/

Tôi không muốn tất cả các trang bắt đầu web.archive.org, nhưng tôi muốn tất cả các trang bắt đầu http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/.

Khi tôi sử dụng wget -r, trong cấu trúc tập tin của tôi, tôi tìm thấy

web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/index.html,

nhưng tôi không có tất cả các tệp là một phần của cơ sở dữ liệu này, vd

web.archive.org/web/20110808041151/http://cst-www.nrl.navy.mil/lattice/struk/d0c.html.

Có lẽ omerack sẽ làm tốt hơn, nhưng hiện tại điều đó đang thu hút quá nhiều.

Vì vậy, bằng cách nào có thể lấy một bản sao cục bộ của một trang web được lưu trữ từ Internet Archive Wayback Machine?


Đàn ông! Tôi đã cố gắng phản chiếu chính xác cùng một trang (và thực sự tức giận rằng tôi đã không làm điều đó khi trang web ban đầu vẫn trực tuyến, việc này sẽ dễ dàng hơn nhiều). Tôi nghĩ một vấn đề là, không phải tất cả các tệp đều có thể truy cập được trong 20110722080716ảnh chụp nhanh, do đó -nptùy chọn của wget sẽ không giúp ích.
mpy

Bạn đã kiểm tra thủ công rằng các trang bị thiếu thực sự được lưu trữ chưa? Archive.org không phải lúc nào cũng lưu trữ mỗi trang.
nitro2k01

Câu trả lời:


20

Mặc dù hữu ích, các câu trả lời trước không thể chính xác, đáng tin cậy và lặp lại giải quyết câu hỏi cơ bản. Trong bài đăng này, chúng tôi chi tiết ngắn gọn những khó khăn với từng và sau đó đưa ra một httrackgiải pháp dựa trên cơ sở khiêm tốn .

Lý lịch

Tuy nhiên, trước khi chúng ta đạt được điều đó, hãy xem xét phản hồi bằng văn bản của mpy . Trong h [là | er] bài đăng bị bỏ quên một cách đáng buồn, mpy tài liệu nghiêm ngặt về sơ đồ lưu trữ tối nghĩa của Wayback Machine (và trung thực che giấu).

Không có gì đáng ngạc nhiên, nó không đẹp. Thay vì hoàn toàn lưu trữ các trang web vào một thư mục, Máy Wayback sẽ lan truyền một trang web duy nhất trên hai hoặc nhiều thư mục anh chị em được xác định bằng số. Nếu nói rằng sự phản chiếu phức tạp này sẽ là một cách đánh giá thấp.

Hiểu những cạm bẫy khủng khiếp được trình bày bởi chương trình này là cốt lõi để hiểu được sự bất cập của các giải pháp trước đây. Chúng ta hãy tiếp tục với nó, phải không?

Giải pháp trước 1: wget

Câu hỏi liên quan đến StackOverflow "Phục hồi trang web cũ khỏi waybackmachine" có lẽ là người phạm tội tồi tệ nhất trong vấn đề này, khuyến nghị wgetcho phản chiếu Wayback. Đương nhiên, khuyến nghị đó về cơ bản là không có cơ sở.

Trong trường hợp không viết lại URL bên ngoài phức tạp (ví dụ Privoxy:), wgetkhông thể sử dụng để phản chiếu các trang web lưu trữ Wayback đáng tin cậy. Như chi tiết mpy trong "Vấn đề 2 + Giải pháp", bất kỳ công cụ phản chiếu nào bạn chọn phải cho phép bạn không tải xuống quá mức chỉ các URL thuộc về trang đích. Theo mặc định, hầu hết các công cụ phản chiếu tải xuống liên tục tất cả các URL thuộc cả trang đích và trang được liên kết từ trang đó - trong trường hợp xấu nhất có nghĩa là "toàn bộ Internet".

Một ví dụ cụ thể là theo thứ tự. Khi phản chiếu tên miền mẫu kearescue.com, công cụ phản chiếu của bạn phải :

  • Bao gồm tất cả các URL phù hợp https://web.archive.org/web/*/http://kearescue.com. Đây là những tài sản được cung cấp bởi trang đích (ví dụ https://web.archive.org/web/20140521010450js_/http_/kearescue.com/media/system/js/core.js:).
  • Loại trừ tất cả các URL khác. Đây là những tài sản được cung cấp bởi các trang web khác chỉ được liên kết đến từ trang đích (ví dụ https://web.archive.org/web/20140517180436js_/https_/connect.facebook.net/en_US/all.js:).

Không loại trừ các URL như vậy thường kéo theo tất cả hoặc hầu hết Internet được lưu trữ tại thời điểm trang web được lưu trữ, đặc biệt đối với các trang web nhúng các tài sản được lưu trữ bên ngoài (ví dụ: video YouTube).

Điều đó sẽ rất tệ. Mặc dù wget không cung cấp --exclude-directoriestùy chọn dòng lệnh chấp nhận một hoặc nhiều mẫu phù hợp với các URL được loại trừ, đây không phải là các biểu thức thông thường có mục đích chung; chúng là các khối đơn giản có *cú pháp khớp với 0 hoặc nhiều ký tự loại trừ/ . Vì các URL được loại trừ chứa nhiều /ký tự tùy ý , wget không thể được sử dụng để loại trừ các URL này và do đó không thể được sử dụng để phản chiếu các trang web lưu trữ Wayback. Giai đoạn = Stage. Kết thúc câu chuyện đáng tiếc.

Vấn đề này đã được ghi nhận trong hồ sơ công khai kể từ ít nhất năm 2009. Nó vẫn chưa được giải quyết. Kế tiếp!

Giải pháp trước 2: Sổ lưu niệm

Prinz khuyến nghị ScrapBook, một plugin Firefox. Một plugin Firefox.

Đó có lẽ là tất cả những gì bạn cần biết. Trong khi ScrapBook's Filter by String...chức năng làm địa chỉ nói trên 'Vấn đề 2 + Giải pháp', nó không giải quyết tiếp theo 'Vấn đề 3 + Giải pháp' - cụ thể là, vấn đề của các bản sao không liên quan.

Đó là câu hỏi liệu ScrapBookthậm chí giải quyết thỏa đáng vấn đề trước đây. Như mpy thừa nhận:

Mặc dù Sổ lưu niệm thất bại cho đến nay để lấy hoàn toàn trang web ...

Các giải pháp không đáng tin cậy và quá đơn giản là các giải pháp không. Kế tiếp!

Giải pháp trước 3: wget + Privoxy

mpy sau đó cung cấp một giải pháp mạnh mẽ tận dụng cả wgetPrivoxy. Trong khi hợp lý wget đơn giản để cấu hình, Privoxylà bất cứ điều gì nhưng hợp lý. Hoặc đơn giản.

Do những trở ngại kỹ thuật không thể tin được của việc cài đặt, định cấu hình và sử dụng đúng cách Privoxy, chúng tôi vẫn chưa xác nhận giải pháp của mpy . Nó nên hoạt động một cách có thể mở rộng, mạnh mẽ. Với các rào cản gia nhập, giải pháp này có lẽ phù hợp với tự động hóa quy mô lớn hơn so với quản trị trang web trung bình đang cố gắng khôi phục các trang web quy mô nhỏ đến trung bình.

wget+ Privoxyđáng xem? Chắc chắn rồi. Nhưng hầu hết các siêu nhân có thể được phục vụ tốt hơn bằng các giải pháp đơn giản hơn, dễ áp ​​dụng hơn.

Giải pháp mới: omerack

Enter httrack, một tiện ích dòng lệnh triển khai wgetchức năng phản chiếu của chức năng phản chiếu. httrackhỗ trợ cả loại trừ URL dựa trên mẫu tái cấu trúc trang web đơn giản. Các cựu giải quyết "Vấn đề 2 + Giải pháp" của mpy ; cái sau, "Bài toán 3 + Giải pháp."

Trong ví dụ trừu tượng dưới đây, thay thế:

  • ${wayback_url}bằng URL của thư mục cấp cao nhất lưu trữ toàn bộ trang web mục tiêu của bạn (ví dụ 'https://web.archive.org/web/20140517175612/http://kearescue.com':).
  • ${domain_name}bởi cùng một tên miền có mặt trong việc ${wayback_url}loại trừ tiền tố http://(ví dụ 'kearescue.com':).

Chúng ta đi đây. Cài đặt httrack, mở cửa sổ terminal, cdvào thư mục cục bộ mà bạn muốn tải xuống trang web của mình và chạy lệnh sau:

httrack\
    ${wayback_url}\
    '-*'\
    '+*/${domain_name}/*'\
    -N1005\
    --advanced-progressinfo\
    --can-go-up-and-down\
    --display\
    --keep-alive\
    --mirror\
    --robots=0\
    --user-agent='Mozilla/5.0 (X11;U; Linux i686; en-GB; rv:1.9.1) Gecko/20090624 Ubuntu/9.04 (jaunty) Firefox/3.5'\
    --verbose

Khi hoàn thành, thư mục hiện tại sẽ chứa một thư mục con cho mỗi kiểu tệp được nhân đôi từ URL đó. Điều này thường bao gồm ít nhất:

  • css, chứa tất cả các bảng định kiểu CSS được nhân đôi.
  • html, chứa tất cả các trang HTML được nhân đôi.
  • js, chứa tất cả JavaScript được nhân đôi.
  • ico, chứa một favicon nhân đôi.

httrackbên trong viết lại tất cả nội dung đã tải xuống để phản ánh cấu trúc này, giờ đây trang web của bạn sẽ có thể duyệt được mà không cần sửa đổi. Nếu bạn tạm dừng lệnh trên và muốn tiếp tục tải xuống, hãy thêm --continuetùy chọn vào cùng một lệnh và thử lại.

Đó là nó. Không có mâu thuẫn bên ngoài, viết lại URL dễ bị lỗi hoặc máy chủ proxy dựa trên quy tắc được yêu cầu.

Thưởng thức, đồng nghiệp siêu nhân.


Tôi rất vui khi biết rằng ít nhất một người đọc kỹ câu trả lời của tôi. Và cảm ơn bạn đã phân tích sâu hơn và giải pháp omerack. +1
mpy

1
Giải pháp omerack là hoàn hảo, cảm ơn bạn rất nhiều!
ChrisChinchilla

Rất vui khi được giúp đỡ nhỏ, các bạn. Cho rằng sự đau đớn kinh khủng của tấm thảm này và sự lừa dối đã được làm sáng tỏ, tôi chỉ phải chia sẻ những phát hiện của mình.
Cecil Curry

Để xóa giới hạn chuyển tốc độ, hãy thêm các tham số sau: --disable-security-terms --max-Rate = 0
Oswaldo

7

Thật không may, không có câu trả lời nào có thể giải quyết vấn đề tạo một tấm gương hoàn chỉnh từ một trang web lưu trữ (mà không sao chép mọi tệp hàng chục lần). Vì vậy, tôi đã hack một cách tiếp cận khác. Hacked là từ quan trọng vì giải pháp của tôi không phải là giải pháp chung hay đơn giản (đọc: sao chép và dán). Tôi đã sử dụng Máy chủ Proxy Proxy để viết lại các tệp đang hoạt động trong khi phản chiếu với wget.

Nhưng trước tiên, có gì khó khăn khi phản chiếu từ Wayback Machine ?

Bài toán 1 + Giải pháp

Thanh công cụ Wayback tiện dụng cho việc sử dụng tương tác, nhưng có thể gây trở ngại cho wget. Vì vậy, loại bỏ nó với một quy tắc lọc riêng

FILTER: removewaybacktoolbar remove Wayback toolbar
s|BEGIN WAYBACK TOOLBAR INSERT.*END WAYBACK TOOLBAR INSERT|Wayback Toolbar removed|s

Bài toán 2 + Giải pháp

Tôi muốn chụp toàn bộ trang web, vì vậy cần một độ sâu đệ quy không quá nhỏ. Nhưng tôi không muốn thu thập dữ liệu trên toàn bộ máy chủ. Thông thường bạn sử dụng tùy chọn không có cha mẹ-np của wget cho mục đích đó. Nhưng điều đó sẽ không hoạt động ở đây, vì bạn muốn có được

http://web.archive.org/web/ 20110722080716 /http://cst-www.nrl.neef.mil/lattice/struk/hcp.html

nhưng cũng

http://web.archive.org/web/ 20110801041529 /http://cst-www.nrl.neef.mil/lattice/struk/a_f.html

(chú ý dấu thời gian đã thay đổi trong đường dẫn). Bỏ qua -npsẽ kết thúc wget bò đến (...)http://cst-www.nrl.navy.mil, và cuối cùng lấy lại toàn bộ navi.miltrang web. Tôi chắc chắn không muốn điều đó! Vì vậy, bộ lọc này cố gắng mô phỏng -nphành vi với máy Wayback:

FILTER: blocknonparentpages emulate wget -np option
s|/web/([0-9].*)/http://cst-www.nrl.navy.mil/lattice/|THIS_IS_A_GOOD_$1_ADDRESS|gU
s|/web/(.*)/http(.*)([" ])|http://some.local.server/404$3|gU
s|THIS_IS_A_GOOD_(.*)_ADDRESS|/web/$1/http://cst-www.nrl.navy.mil/lattice/|gU

Tôi sẽ để nó như một bài tập để đi sâu vào cú pháp. Có gì bộ lọc này không là những điều sau đây: Nó thay thế tất cả các URL Wayback như http://web.archive.org/web/20110801041529/http://www.nrl.navy.mil/với http://some.local.server/404chừng nào họ không chứa http://cst-www.nrl.navy.mil/lattice/.

Bạn phải điều chỉnh http://some.local.server/404. Điều này là để gửi một lỗi 404 để wget. Có lẽ privateoxy có thể làm điều đó thanh lịch hơn. Tuy nhiên, cách dễ nhất đối với tôi chỉ là viết lại liên kết đến một trang không tồn tại trên máy chủ http cục bộ, vì vậy tôi bị mắc kẹt với điều này.

Và, bạn cũng cần phải điều chỉnh cả hai lần xuất hiện của http://cst-www.nrl.navy.mil/lattice/để phản ánh các trang web mà bạn muốn gương.

Bài toán 3 + Giải pháp

Và cuối cùng một số phiên bản lưu trữ của một trang có thể liên kết đến trang trong một ảnh chụp nhanh khác. Và đó là một trong những khác. Và cứ thế ... và bạn sẽ kết thúc với rất nhiều ảnh chụp nhanh của cùng một trang - và wget sẽ không bao giờ quản lý để hoàn thành cho đến khi nó đã tải tất cả các ảnh chụp nhanh. Tôi thực sự không muốn điều đó, cũng không! Ở đây nó giúp ích rất nhiều, rằng máy Wayback rất thông minh. Bạn có thể yêu cầu một tập tin

http://web.archive.org/web/ 20110801041529 /http://cst-www.nrl.neef.mil/lattice/struk/a_f.html

ngay cả khi nó không được bao gồm trong 20110801041529ảnh chụp. Nó tự động chuyển hướng bạn đến đúng:

http://web.archive.org/web/ 20110731225728 /http://cst-www.nrl.neef.mil/lattice/struk/a_f.html

Vì vậy, một bộ lọc riêng khác để viết lại tất cả các ảnh chụp nhanh sang ảnh gần đây nhất

FILTER: rewritewaybackstamp rewrite Wayback snapshot date
s|/([0-9]{14})(.{0,3})/|/20120713212803$2/|g

Có hiệu quả, mỗi số gồm 14 chữ số được đính kèm /.../sẽ được 20120713212803điều chỉnh bằng (điều chỉnh số đó thành ảnh chụp nhanh gần đây nhất của trang web bạn muốn). Đây có thể là một vấn đề nếu có những con số như vậy trong cấu trúc trang web không bắt nguồn từ máy Wayback. Không hoàn hảo, nhưng tốt cho trang web Strukturtypen .

Điều tuyệt vời ở đây là, wget bỏ qua vị trí mới mà nó được chuyển hướng đến và lưu tệp - trong exampe ở trên - như web.archive.org/web/20110801041529/http://cst-www.nrl.navy.mil/lattice/struk/a_f.html.

Sử dụng wget để phản chiếu trang web lưu trữ

Vì vậy, cuối cùng với các bộ lọc privateoxy (được xác định trong user.filter) được bật trong user.actionthông qua

{ +filter{removewaybacktoolbar} +filter{blocknonparentpages} +filter{rewritewaybackstamp} }
web.archive.org

bạn có thể sử dụng wget như bình thường. Đừng quên nói với wget để sử dụng proxy:

export http_proxy="localhost:8118"
wget -r -p -k -e robots=off http://web.archive.org/web/20120713212803/http://cst-www.nrl.navy.mil/lattice/index.html

Tôi đã sử dụng các tùy chọn này, nhưng -mcũng nên làm việc. Bạn sẽ kết thúc với các thư mục

20120713212803
20120713212803cs_
20120713212803im_
20120713212803js_

khi máy Wayback tách hình ảnh ( im_), biểu định kiểu ( cs_), v.v. Tôi đã hợp nhất mọi thứ lại với nhau và sử dụng một số phép thuật sed để thay thế các liên kết tương đối xấu ( ../../../../20120713212803js_/http:/cst-www.nrl.navy.mil/lattice) tương ứng. Nhưng điều này không thực sự cần thiết.


1
Đây là một câu trả lời vô giá. Sự phân tích chính xác của bạn về cấu trúc trang web nội bộ của Wayback Machine là chìa khóa cho giải pháp dựa trên cơ sở của Olerack mà cuối cùng tôi đã vấp phải. Bạn đá, mpy.
Cecil Curry

5

wget

--page-certisites
Tùy chọn này khiến Wget tải xuống tất cả các tệp cần thiết để hiển thị đúng một trang HTML đã cho. Điều này bao gồm những thứ như hình ảnh, âm thanh và biểu định kiểu được tham chiếu.

Thông thường, khi tải xuống một trang HTML, mọi tài liệu cần thiết có thể cần để hiển thị đúng sẽ không được tải xuống. Sử dụng -r cùng với -l có thể giúp ích, nhưng vì Wget thường không phân biệt giữa các tài liệu bên ngoài và nội dung, nên người ta thường để lại "tài liệu lá" bị thiếu các yêu cầu của họ.

Ví dụ: giả sử tài liệu 1.html chứa thẻ "" tham chiếu 1.gif và thẻ "" trỏ đến tài liệu bên ngoài 2.html. Nói rằng 2.html tương tự nhưng hình ảnh của nó là 2.gif và nó liên kết với 3.html. Nói điều này tiếp tục lên đến một số cao tùy ý.

-m
--mirror

Bật tùy chọn phù hợp để phản chiếu. Tùy chọn này bật đệ quy và dập thời gian, đặt độ sâu đệ quy vô hạn và giữ danh sách thư mục FTP. Nó hiện tương đương với -r -N -l inf --no-remove-list.

Lưu ý rằng Wget sẽ hoạt động như thể -r đã được chỉ định, nhưng chỉ có một trang duy nhất và các yêu cầu của nó sẽ được tải xuống. Liên kết từ trang đó đến các tài liệu bên ngoài sẽ không được theo dõi. Trên thực tế, để tải xuống một trang duy nhất và tất cả các yêu cầu của nó (ngay cả khi chúng tồn tại trên các trang web riêng biệt) và đảm bảo lô hiển thị đúng cách cục bộ, tác giả này thích sử dụng một vài tùy chọn ngoài -p:

wget -E -H -k -K -p http://<site>/<document>

SO wget -E -H -k -K -p http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice sẽ là phù hợp nhất cho bạn. Nhưng tôi đề nghị một công cụ khác, một firefoxphần mở rộngscrapbook

sổ lưu niệm

ScrapBook là một tiện ích mở rộng của Firefox, giúp bạn lưu các trang Web và dễ dàng quản lý các bộ sưu tập. Các tính năng chính là nhẹ, tốc độ, độ chính xác và hỗ trợ đa ngôn ngữ. Các tính năng chính là:
* Lưu trang Web
* Lưu đoạn trích của trang Web
* Lưu trang web
* Sắp xếp bộ sưu tập theo cách tương tự như Dấu trang
* Tìm kiếm toàn văn bản và tìm kiếm bộ lọc nhanh của bộ sưu tập
* Chỉnh sửa trang Web đã thu thập
* Văn bản / HTML chỉnh sửa tính năng giống với Ghi chú của Opera

Cách phản chiếu trang web
Cài đặt sổ lưu niệm và khởi động lại firefox

  1. Tải trang trong trình duyệt [trang web sẽ được nhân đôi]
  2. Nhấp chuột phải vào trang -> Lưu trang dưới dạng ...
  3. chọn cấp độ từ Lưu sâu và nhấn lưu nhập mô tả hình ảnh ở đây
  4. chọn Restrict to Drirectory/ Domaintừ Bộ lọc
    nhập mô tả hình ảnh ở đây

Đợi nó phản chiếu để hoàn thành. Sau khi phản chiếu, bạn có thể truy cập trang web ngoại tuyến từ ScrapBookmenu.


Mặc dù Sổ lưu niệm thất bại cho đến nay để lấy hoàn toàn trang web, nhưng nó gần với một giải pháp khả thi hơn các đề xuất khác. Đặc biệt, tùy chọn Filter by String ... của nó hữu ích hơn là lọc theo máy chủ / tên miền. Do đó, tôi trao phần thưởng cho bạn:)
mpy

0

Hãy cẩn thận với lệnh dưới đây vì nó lấy rất nhiều. Số 1 sau 'l' bảo nó lấy tất cả các trang cho các liên kết trên trang web sâu 1 cấp. Nếu bạn muốn nó thay đổi sâu hơn thành 2 nhưng nó có thể không bao giờ kết thúc vì nó có thể bị cuốn vào vòng lặp.

wget -rHpkl 1 -e robots=off http://www.example.com/

Tôi không chắc phần nào của trang web bạn muốn giữ và phần nào bạn không quan tâm nhưng có lẽ bạn nên liệt kê danh sách trắng và / hoặc danh sách đen các phần khác nhau của trang web để chỉ nhận những gì bạn muốn và để ngăn mình khỏi tải xuống tất cả archive.org hoặc internet.

Chỉ sử dụng -D www.examle.com,www.another.example.comđể đưa vào danh sách trắng những tên miền bạn muốn hoặc sử dụng --exclude-domains www.examle.com,www.another.example.com để đưa vào danh sách đen những gì bạn không muốn.


Cảm ơn, nhưng vấn đề với danh sách trắng / đen là tất cả các trang web lưu trữ đến từ web.archive.orgmáy chủ lưu trữ. Tôi muốn phản chiếu tất cả mọi thứ wget -npsẽ được nhân đôi khi trang web gốc vẫn còn trực tuyến. -lcũng không giúp được gì nhiều, vì nó phải được tăng lên 3 hoặc 4, do đó dẫn đến việc tăng thứ bậc trang web quá nhiều.
mpy

0

Định dạng của URL cho Lưu trữ Internet bao gồm ngày và thời gian trang web được lưu trữ. Để tiết kiệm không gian tài sản không thay đổi được liên kết trở lại phiên bản trước của trang web.

Ví dụ: trong url này http://web.archive.org/web/20000229123340/http://www.yahoo.com/ ngày trang web được thu thập thông tin là ngày 29 tháng 2 năm 2000 lúc 12:33 và 40 giây.

Vì vậy, để có được tất cả các http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/bạn cần phải bắt đầu từ đó nhưng cũng lấy tất cả các tài sản được liên kết từ đó http://web.archive.org/web/*/http://cst-www.nrl.navy.mil/lattice/.


Chính xác, và đó là vấn đề. Giả sử trang A liên kết đến B. Vì vậy, phiên bản hiện tại A liên kết đến phiên bản cũ B. Nhưng B cũng bao gồm một liên kết đến A. Vì vậy, phiên bản cũ của A cũng được truy xuất và liên kết lại với phiên bản cũ hơn. Điều này (ở độ sâu thu thập dữ liệu (cần thiết) là 4) dẫn đến kết quả là bạn kết thúc với hàng tá phiên bản của trang chỉ mục, nhưng không phải tất cả các tệp cần thiết.
mpy

0

Đã có một công cụ làm điều đó tốt hơn:

wayback_machine_downloader domain.org 

Để có được nó, bạn cần phải cài đặt ruby. Và sau đó:

gem install wayback_machine_downloader
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.