Làm thế nào để tải xuống danh sách các tập tin từ một máy chủ tập tin?


10

Làm cách nào để tôi tải xuống danh sách các tệp từ máy chủ tệp như thế này http://www.apache.org/dist/httpd/binaries/ ?

Tôi cho rằng tôi có thể sử dụng wget nhưng sau đó nó cũng cố gắng để có được tất cả các liên kết và tệp html. Có một công cụ tốt hơn để thực hiện điều này?


chỉ để làm rõ câu hỏi của bạn: bạn chỉ muốn danh sách các tệp có thể được tải xuống từ máy chủ chứ không phải chính các tệp đó?
akira

Theo cách nào thì một lệnh như `wget --no-verbose --spider --no-Directory --recursive --level = 2 apache.org/ dist/httpd/binaries` không hoạt động cho bạn? Nếu bạn có thể cụ thể hơn có thể giúp đỡ
DaveParillo

Câu trả lời:


12

Bạn có thể chỉ định phần mở rộng tệp nào wgetsẽ tải xuống khi thu thập dữ liệu trang:

wget -r -A zip,rpm,tar.gz www.site.com/startpage.html

điều này sẽ thực hiện một file tìm kiếm và chỉ tải đệ quy với .zip, .rpm.tar.gzphần mở rộng.


8

giả sử bạn thực sự chỉ muốn một danh sách các tệp trên máy chủ mà không tìm nạp chúng (chưa):

%> wget -r -np --spider http://www.apache.org/dist/httpd/binaries/ 2> & 1 | bộ lọc awk -f.awk | uniq

trong khi 'filter.awk' trông như thế này

/ ^ - .*-- http: \ / \ /.* [^ \ /] $ / {u = $ 3; }
/ ^ Độ dài: [[: chữ số:]] + / {in u; }

sau đó bạn có thể phải lọc ra một số mục như

"http://www.apache.org/dist/httpd/binaries/?C=N;O=D"

0

Tham chiếu: http://blog.incognitech.in/doad-files-from-apache-server-listing-directory/

Bạn có thể sử dụng lệnh sau:

wget --execute="robots = off" --mirror --convert-links --no-parent --wait=5 <website-url>

Giải thích với từng lựa chọn

  • wget: Lệnh đơn giản để thực hiện yêu cầu CURL và tải các tệp từ xa về máy cục bộ của chúng tôi.
  • --execute="robots = off": Điều này sẽ bỏ qua tệp robots.txt trong khi thu thập thông tin qua các trang. Sẽ rất hữu ích nếu bạn không nhận được tất cả các tệp.
  • --mirror: Tùy chọn này về cơ bản sẽ phản ánh cấu trúc thư mục cho URL đã cho. Đó là một phím tắt -N -r -l inf --no-remove-listingcó nghĩa là:
    • -N: không truy xuất lại các tập tin trừ khi mới hơn cục bộ
    • -r: chỉ định tải xuống đệ quy
    • -l inf: độ sâu đệ quy tối đa (inf hoặc 0 cho vô hạn)
    • --no-remove-listing: không xóa các tệp '.listing'
  • --convert-links: tạo liên kết trong HTML hoặc CSS được tải xuống tới các tệp cục bộ
  • --no-parent: không lên thư mục mẹ
  • --wait=5: chờ 5 giây giữa các lần truy xuất. Vì vậy, chúng tôi không đập phá máy chủ.
  • <website-url>: Đây là url trang web từ nơi tải xuống các tệp.

Tải về hạnh phúc: cười:

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.