Về cơ bản, tôi muốn thu thập dữ liệu toàn bộ trang web bằng Wget, nhưng tôi cần nó KHÔNG BAO GIỜ tải xuống các tài sản khác (ví dụ: hình ảnh, CSS, JS, v.v.). Tôi chỉ muốn các tệp HTML.
Tìm kiếm Google hoàn toàn vô dụng.
Đây là một lệnh tôi đã thử:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Trang web của chúng tôi là hybrid phẳng-PHP và CMS. Vì vậy, HTML "tác phẩm" có thể là /path/to/page
, /path/to/page/
, /path/to/page.php
, hoặc /path/to/page.html
.
Tôi thậm chí đã bao gồm -R js,css
nhưng nó vẫn tải xuống các tệp, THÌ từ chối chúng (lãng phí vô nghĩa về băng thông, CPU và tải máy chủ!).
Length: 558 [text/css]
các tệp tôi không muốn. Nếu tôi có thể dừng yêu cầu nếu tiêu đề không trở lại text/html
, tôi sẽ rất phấn khởi.