Lựa chọn thay thế để quên


12

Tôi có một trang web trên một máy chủ về cơ bản là một loạt các trang, hình ảnh và âm thanh HTML.

Tôi đã mất mật khẩu vào máy chủ đó và tôi cần lấy mọi thứ được lưu trữ ở đó. Tôi có thể đi từng trang và lưu mọi thứ nhưng trang web có hơn 100 trang.

Tôi đang sử dụng OSX. Tôi đã cố gắng sử dụng wgetnhưng tôi nghĩ rằng máy chủ đang chặn điều đó.

Có cách nào khác tôi có thể sử dụng để lấy nội dung đó không?


Nếu bạn có quyền truy cập vật lý vào máy chủ, hãy khởi động vào chế độ người dùng và khôi phục mật khẩu của bạn. debuntu.org/...
spuder

Câu trả lời:


14

Nếu máy chủ đang chặn wget, rất có thể nó sẽ thực hiện trên cơ sở trường "Tác nhân người dùng:" của tiêu đề http, vì đó là cách duy nhất để nó biết ở vị trí đầu tiên. Nó cũng có thể chặn IP của bạn, trong trường hợp sử dụng phần mềm khác nhau sẽ không giúp ích hoặc một số lược đồ xác định tự động hóa trên cơ sở tốc độ của một bộ yêu cầu (vì người thực không duyệt 100 trang trong 3,2 giây) . Tôi chưa nghe nói về bất cứ ai làm điều đó, nhưng nó có thể.

Tôi cũng chưa từng nghe về cách làm chậm wget, nhưng có một cách để giả mạo trường tác nhân người dùng:

wget --user-agent=""

Sẽ theo trang người đàn ông bỏ "Tác nhân người dùng:" hoàn toàn, vì nó không bắt buộc. Nếu máy chủ không như vậy, hãy thử --user-agent="Mozilla/5.0"cái nào đủ tốt.

Tất nhiên, nó sẽ giúp ích nếu bạn giải thích rõ hơn lý do tại sao bạn "nghĩ rằng máy chủ đang chặn điều đó". Có phải wget nói bất cứ điều gì, hoặc chỉ là thời gian ra?


ồ đúng rồi Cảm ơn. Tôi đã bỏ lỡ điều đó trên wget giúp đỡ. Nó đang hoạt động ngay bây giờ !!!!!!!!!!!!!!!!!!!!!!!!
SpaceDog

5
wgetcó một số tùy chọn để chờ giữa các truy vấn, giới hạn tốc độ hoặc số lượng tải xuống. Kiểm tra infotrang để biết chi tiết.
Stéphane Chazelas

6

Tôi thường sử dụng httrackđể tải xuống / phản chiếu nội dung web từ một trang web.

$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0

Sau khi nó chạy, bạn để lại một cấu trúc thư mục cục bộ và có thể duyệt được. Ví dụ:

$ ls -l
total 304
-rw-r--r--  1 saml saml   4243 Aug 17 10:20 backblue.gif
-rw-r--r--  1 saml saml    828 Aug 17 10:20 fade.gif
drwx------  3 saml saml   4096 Aug 17 10:20 hts-cache
-rw-rw-r--  1 saml saml    233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r--  1 saml saml   1517 Aug 17 10:20 hts-log.txt
-rw-------  1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r--  1 saml saml   5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml   4096 Aug 17 10:21 2011.example.com

Khi tải xuống, bạn sẽ thấy loại đầu ra sau:

Bytes saved:    21,89KiB           Links scanned:   12/45 (+4)
Time:   2s                         Files written:   4
Transfer rate:  2,65KiB/s (2,65KiB/s)  Files updated:   1
Active connections:     1          Errors:  7

Current job: parsing HTML file (57%)
 request -  2011.example.com/cgi-bin/hostnames.pl   0B /    8,00KiB

Nó có thể được làm nền và / hoặc hủy bỏ và sau đó được nối lại. Đây chỉ là phần nổi của tảng băng về các tính năng của nó. Ngoài ra còn có GUI cho cả thiết lập tải xuống và theo dõi nó khi tiến trình.

Có tài liệu phong phú trên httracktrang web và bằng cách googling.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.