Làm thế nào để có được nội dung không nén khi sử dụng wget đệ quy?


6

tôi đang tải xuống nhiều trang đơn lẻ với tất cả nội dung tĩnh (js, css, imss ...) qua wget đệ quy . Nó xuất hiện, nội dung được phục vụ, được nén (gzip), được lưu trữ bởi wget trong nén hình thức. Nhưng tôi muốn hình thức không nén. Thật không dễ để tưởng tượng việc viết một kịch bản khác sẽ đi qua các thư mục đệ quy và cố gắng giải nén những gì có thể. Vì vậy, có cách nào để làm cho nó không bị nén?

CMD:

wget -E -H -k -K -p https: //some.example

thậm chí --header = 'Chấp nhận mã hóa:' (yêu cầu máy chủ không sử dụng gzip) không giúp ích gì.

Cảm ơn bạn đã cho lời khuyên :)


1
Tôi chưa bao giờ trải nghiệm bất cứ điều gì như những gì bạn đang mô tả. Bạn có thể cung cấp một URL ví dụ cụ thể và lời mời wget chính xác hoạt động theo cách này không?
a CVn

ví dụ là https://www.divokekmeny.cz , sẽ tạo tệp nén được đặt tại: '.. \ dscs.innogamescdn.com \ merged \ index.css@39e9148320b8ea5332394a46c9c05ccd'. Khi bạn cố gắng giải nén nó bằng gzip, nó hoạt động.
user3720773

Câu trả lời:


1
  1. Sử dụng omerack thay vì wget
  2. Thiết lập proxy giải nén. Mực với một số Plugin bên thứ 3 nên có thể làm điều đó Tôi quen thuộc hơn với Java nên tôi đã sử dụng LittleProxy, phương thức overrode getMaximumResponseBufferSizeInBytes () và đó là nó. Tôi đã viết về sau đây .

EDIT: Wget 1.19.2 giới thiệu Add gzip Content-Encoding decompression (Và nó hoạt động)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.