Làm thế nào để bạn hướng dẫn wget thu thập dữ liệu một cách đệ quy một trang web và chỉ tải xuống một số loại hình ảnh nhất định?
Tôi đã thử sử dụng điều này để thu thập dữ liệu một trang web và chỉ tải xuống hình ảnh Jpeg:
wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html
Tuy nhiên, mặc dù page1.html chứa hàng trăm liên kết đến các trang con, bản thân chúng có liên kết trực tiếp đến hình ảnh, nhưng hãy báo cáo những điều như "Xóa subpage13.html vì nó sẽ bị từ chối" và không bao giờ tải xuống bất kỳ hình ảnh nào, vì không có liên kết trực tiếp nào từ trang bắt đầu.
Tôi cho rằng điều này là do --accept của tôi đang được sử dụng để cả thu thập thông tin và lọc nội dung để tải xuống, trong khi tôi muốn nó chỉ được sử dụng để chỉ đạo tải xuống nội dung. Làm cách nào để tôi có thể thu thập dữ liệu tất cả các liên kết, nhưng chỉ tải xuống các tệp có phần mở rộng nhất định như * .jpeg?
EDIT: Ngoài ra, một số trang là động và được tạo thông qua tập lệnh CGI (ví dụ: img.cgi? Fo9s0f989wefw90e). Ngay cả khi tôi thêm cgi vào danh sách chấp nhận của mình (ví dụ: --accept = jpg, jpeg, html, cgi), những thứ này vẫn luôn bị từ chối. Có cách nào để giái quyết vấn đề này không?