Tôi đã sử dụng wget để tải xuống các tệp html, hình ảnh trong tệp được lưu trữ ở đâu?


15

Firefox tải rất chậm, vì vậy tôi quyết định sử dụng wgetđể lưu tệp HTML. Tôi đã sử dụng lệnh sau đây,

wget http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Các tập tin đã được lưu trong thư mục nhà của tôi. Nhưng tôi không biết hình ảnh được lưu trữ ở đâu. Tôi cần chúng để sử dụng Anki.

Vậy những hình ảnh được lưu trữ ở đâu?


Bài viết này giải thích các tùy chọn và làm thế nào chúng hữu ích.
Wilf

Câu trả lời:


34

Tôi thích sử dụng --page-requisites( -pviết tắt) thay vì -rở đây vì nó tải xuống mọi thứ mà trang cần hiển thị nhưng không có trang nào khác và tôi không phải suy nghĩ về loại tệp nào tôi muốn.

Trên thực tế tôi thường sử dụng một cái gì đó như

wget -E -H -k -p http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Điều này có nghĩa là:

  • -E: Nối .htmlvào tên tệp nếu đó là tệp HTML nhưng không kết thúc .htmlhoặc tương tự
  • -H: Tải xuống các tệp từ các máy chủ khác, quá
  • -k: Sau khi tải xuống, chuyển đổi bất kỳ liên kết nào trong đó để chúng trỏ đến các tệp đã tải xuống
  • -p: Tải xuống bất cứ thứ gì trang cần để xem ngoại tuyến thích hợp

Tôi đến đây để tìm kiếm -H, và rất vui khi tìm hiểu về -E-kquá. Cảm ơn!
Charles Clayton

2

sử dụng tham số -r sẽ cho phép wget tải xuống toàn bộ thư mục, bao gồm cả hình ảnh của bạn.

wget -r http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

2

Tải xuống các tệp hình ảnh riêng biệt là tốt

Tôi nghĩ rằng lệnh này có thể giúp bạn bắt đầu.

 wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Nó cho phép bạn chỉ định vị trí để lưu hình ảnh và loại tệp bạn muốn. Có lẽ tải hình ảnh như vậy là dễ dàng hơn.

Nguồn :

-r cho phép truy xuất đệ quy. Xem Tải về đệ quy để biết thêm thông tin.

-P đặt tiền tố thư mục nơi tất cả các tệp và thư mục được lưu vào.

-A thiết lập danh sách trắng để chỉ truy xuất một số loại tệp nhất định. Chuỗi và mẫu được chấp nhận và cả hai có thể được sử dụng trong danh sách được phân tách bằng dấu phẩy (như đã thấy ở trên). Xem các loại tệp để biết thêm thông tin.

Sao chép các tập tin hình ảnh từ thư mục của bạn

Tôi đã nhận thấy rằng trang web sử dụng các tập tin hình ảnh PNG. Bạn chỉ có thể sao chép chúng từ thư mục của bạn. Điều này nên được chạy trong thư mục nơi bạn lưu trữ trang web.

find . -name "*.png" -exec cp '{}' ./some_dir/somewhere/ \;

1

Wget chỉ cần tải xuống tệp HTML của trang, không phải hình ảnh trong trang, vì hình ảnh trong tệp HTML của trang được viết dưới dạng URL. Để làm những gì bạn muốn, hãy sử dụng -R(đệ quy), -Atùy chọn với hậu tố tệp hình ảnh, --no-parenttùy chọn, để làm cho nó không tăng lên và --leveltùy chọn với 1.

Đặc biệt wget -R -A .jpg,.png,.gif --no-parent --level <url>

Thậm chí tốt hơn, hầu hết các trình duyệt đều có phương pháp lưu trang để xem ngoại tuyến .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.