Làm cách nào tôi có thể tải xuống toàn bộ trang web?


81

Tôi muốn tải xuống toàn bộ trang web (với các trang web phụ). Có công cụ nào cho việc đó không?


1
Chính xác là bạn đang cố đạt được điều gì? tiêu đề và nội dung câu hỏi của bạn không liên quan và nội dung không cụ thể.
RolandiXor

NB, chỉ theo các liên kết (ví dụ: sử dụng --convert-linkstrong wget) sẽ không tiết lộ các trang web chỉ được tiết lộ bằng cách gửi biểu mẫu, trong số những thứ khác.
Steven

Câu trả lời:


140

Hãy thử ví dụ 10 từ đây :

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror : bật tùy chọn phù hợp để phản chiếu.

  • -p : tải xuống tất cả các tệp cần thiết để hiển thị đúng một trang HTML đã cho.

  • --convert-links : sau khi tải xuống, chuyển đổi các liên kết trong tài liệu để xem cục bộ.

  • -P ./LOCAL-DIR : lưu tất cả các tập tin và thư mục vào thư mục được chỉ định.

Có cách nào để chỉ tải xuống một số trang nhất định (ví dụ: một số phần của bài viết được trải rộng trên một số tài liệu html) không?
don.joey

@Private Có, mặc dù có thể dễ dàng hơn khi sử dụng python hoặc một cái gì đó để lấy các trang (tùy thuộc vào bố cục / url). Nếu url của các trang khác nhau bởi một số lượng liên tục tăng hoặc bạn có một danh sách các trang, có lẽ bạn có thể sử dụng wget trong tập lệnh bash.
Vreality

2
Bạn có thể cân nhắc sử dụng --wait=secondsđối số nếu bạn muốn thân thiện hơn với trang web; nó sẽ đợi số giây được chỉ định giữa các lần truy xuất.
belacqua

các công việc trên, nhưng đối với j Joomla, url được tham số hóa tạo các tệp không được liên kết cục bộ. Người làm việc đối với tôi là wget -m -k -K -E your.domain.com từ đây: vaasa.hacklab.fi/2013/11/28/...
M.Hefny

1
Ngoài ra --no-parentđể "không bao giờ lên thư mục mẹ" được lấy từ đây .
Daniel

38

HTTrack cho Linux sao chép trang web ở chế độ ngoại tuyến

omerack là công cụ bạn đang tìm kiếm.

HTTrack cho phép bạn tải trang web World Wide Web từ Internet về thư mục cục bộ, xây dựng đệ quy tất cả các thư mục, nhận HTML, hình ảnh và các tệp khác từ máy chủ vào máy tính của bạn. HTTrack sắp xếp cấu trúc liên kết tương đối của trang web gốc.


7

Với wgetbạn có thể tải xuống toàn bộ trang web, bạn nên sử dụng -rchuyển đổi để tải xuống đệ quy . Ví dụ,

wget -r http://www.google.com

6

WEBHTTRACK WEBSITE COPIER là một công cụ tiện dụng để tải toàn bộ trang web xuống đĩa cứng của bạn để duyệt ngoại tuyến. Khởi chạy trung tâm phần mềm Ubuntu và gõ "máy photocopy trang web webhttrack" mà không có dấu ngoặc kép vào hộp tìm kiếm. chọn và tải xuống từ trung tâm phần mềm vào hệ thống của bạn. bắt đầu webHTTrack từ trình duyệt hoặc trình đơn bắt đầu, từ đó bạn có thể bắt đầu thưởng thức công cụ tuyệt vời này để tải xuống trang web của mình


3

Tôi không biết về tên miền phụ, tức là các trang web phụ, nhưng wget có thể được sử dụng để lấy một trang web hoàn chỉnh. Hãy xem câu hỏi siêu người dùng này . Nó nói rằng bạn có thể sử dụng -D domain1.com,domain2.comđể tải xuống các tên miền khác nhau trong một tập lệnh. Tôi nghĩ bạn có thể sử dụng tùy chọn đó để tải xuống tên miền phụ tức là-D site1.somesite.com,site2.somesite.com


1

Tôi sử dụng Burp - công cụ nhện thông minh hơn wget và có thể được cấu hình để tránh các phần nếu cần thiết. Bản thân Burp Suite là một bộ công cụ mạnh mẽ để hỗ trợ thử nghiệm, nhưng công cụ nhện rất hiệu quả.


1
Không chỉ Burp Windows? Thỏa thuận cấp phép nguồn đóng cho Burp cũng khá nặng nề. Chưa kể thẻ giá $ 299,00:
Kat Amsterdam

từ giấy phép: CẢNH BÁO: BURP SUITE PHIÊN BẢN MIỄN PHÍ ĐƯỢC THIẾT KẾ ĐỂ KIỂM TRA CÁC LUẬT BẢO MẬT VÀ CÓ THỂ THAM GIA CÁC HỆ THỐNG MỤC TIÊU ĐẾN TÍNH CHẤT CỦA CHỨC NĂNG CỦA NÓ. KIỂM TRA CÁC BÀI VIẾT AN NINH LIÊN QUAN ĐẾN TƯƠNG TÁC VỚI CÁC MỤC TIÊU TRONG CÁCH KHÔNG TIÊU CHUẨN MÀ CÓ THỂ NGUYÊN NHÂN VẤN ĐỀ TRONG MỘT SỐ MỤC TIÊU CÓ THỂ. BẠN PHẢI TÌM HIỂU CHĂM SÓC KHI SỬ DỤNG PHẦN MỀM, BẠN PHẢI ĐỌC TẤT CẢ TÀI LIỆU TRƯỚC KHI SỬ DỤNG, BẠN NÊN TRỞ LẠI HỆ THỐNG MỤC TIÊU TRƯỚC KHI SỬ DỤNG VÀ BẠN KHÔNG NÊN SỬ DỤNG PHẦN MỀM TRÊN HỆ THỐNG SẢN XUẤT HOẶC HỆ THỐNG KHÁC .
Kat Amsterdam

Đối với những gì nó làm, thẻ giá rẻ đến mức đáng kinh ngạc - tôi sẽ khuyên bạn nên mua nó cho một loạt các thử nghiệm bảo mật. Và rất dễ dàng để định cấu hình để kiểm tra chính xác như bạn muốn - an toàn hơn AppScan trong một số trường hợp :-)
Rory Alsop

1
@KatAmsterdam Liên quan cụ thể đến câu hỏi tương thích: Theo Wikipedia , Burp Suite là một ứng dụng Java, vì vậy nó sẽ chạy tốt trên Ubuntu.
Eliah Kagan

Kat - nó chạy tốt trên nhiều hương vị khác nhau của Linux. Cảnh báo trên giấy phép giống như bất kỳ công cụ nào bạn có thể sử dụng để đánh giá bảo mật.
Rory Alsop

1

Bạn có thể tải xuống Toàn bộ trang web Lệnh:

wget -r -l 0 website

Thí dụ :

wget -r -l 0 http://google.com

Bạn có thể giải thích làm thế nào lệnh này hoạt động? Những gì nó làm?
Kaz Wolfe

0

Nếu tốc độ là một mối quan tâm (và sức khỏe của máy chủ thì không), bạn có thể thử puf , hoạt động như wget nhưng có thể tải xuống nhiều trang song song. Tuy nhiên, nó không phải là một sản phẩm hoàn chỉnh, không được bảo trì và không có giấy tờ khủng khiếp. Tuy nhiên, để tải xuống một trang web có rất nhiều tệp nhỏ, đây có thể là một lựa chọn tốt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.