Làm cách nào để duyệt một trang web được tải xuống bằng wayback_machine_doader?


-1

Tôi đã đọc các cuộc thảo luận tại Làm thế nào để tải xuống một trang web từ archive.org Wayback Machine? và làm theo hướng dẫn tại https://github.com/hartator/wayback-machine-doader để cài đặt wayback_machine_doader và sử dụng nó để tải xuống thành công một trang web từ archive.org.

Có cách nào để duyệt các trang này để việc nhấp vào một liên kết sẽ đưa bạn đến trang ngoại tuyến tương ứng thay vì cố gắng mở một trang trực tuyến?


Hãy dùng thử công cụ omerack . Thật tuyệt vời và tự tạo URL cục bộ tương đối.
C0deDaedalus

Câu trả lời:


0

Nếu chương trình bạn đã sử dụng không tự động viết lại URL cho bạn, bạn có thể có hai tùy chọn cơ bản ...

Tùy chọn đầu tiên là tạo một máy chủ cá nhân phản chiếu nội dung bạn đã tải xuống. Bạn sẽ thiết lập một máy chủ web như Apache hoặc Nginx (hoặc lựa chọn khác ) trên PC cục bộ của bạn và sau đó tạo ít nhất một máy chủ ảo tương ứng cho (các) tên miền lỗi thời. Máy chủ này (hoặc máy chủ) sẽ chứa các tệp bạn đã tải xuống. Bạn sẽ cần một số dạng phân giải DNS để ánh xạ tên miền cũ sang máy chủ web cục bộ của bạn nhưng điều này có thể được thực hiện với tệp máy chủ của bạn hoặc thậm chí là thiết lập DNS cục bộ đầy đủ với BIND hoặc phần mềm tương tự .

Nếu giải pháp trên là không mong muốn, có khả năng bạn sẽ tự viết lại các URL. Tất nhiên bạn có thể làm điều này bằng tay nhưng (tùy thuộc vào quy mô của dự án), bạn có thể muốn xem ngôn ngữ kịch bản Python và một mô-đun có tên Beautiful Soup . Súp đẹp được làm để phân tích các trang web và có khả năng có thể viết lại các liên kết (giả sử bạn viết kịch bản để làm như vậy).

Là một cảnh báo nhỏ, cho dù bạn chọn phương pháp nào, có thể bạn vẫn sẽ cần xem mã nguồn HTML để xác định liên kết nào cần chú ý và không liên kết nào. Cũng rất hữu ích khi nhớ rằng các liên kết bên ngoài có thể không hoạt động bất kể, giả sử archive.org cũng không tạo ra một bản sao của nội dung đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.