Tôi muốn thu thập các liên kết trong www.website.com/XYZ và chỉ tải xuống các liên kết nằm dưới www.website.com/ABC.
Tôi đang sử dụng lệnh wget sau để nhận các tệp tôi muốn:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Điều này hoạt động hoàn hảo khi tôi sử dụng wget 1.13.4. Nhưng vấn đề là tôi phải sử dụng lệnh này trên một máy chủ có w11 1.11 và khi tôi sử dụng cùng một lệnh, nó sẽ tải xuống các tên miền bổ sung như:
www.website.de
www.website.it
...
Làm thế nào tôi có thể tránh vấn đề này? Tôi đã thử sử dụng
--exclude domains=www.website.de,www.website.it
Tuy nhiên, nó tiếp tục tải xuống các tên miền.
Cũng lưu ý rằng tôi không thể sử dụng --no-parentvì các tệp tôi muốn ở cấp cao hơn (tôi muốn các tệp trong website.com/ABC bằng cách thu thập các liên kết trong website.com/XYZ).
Có gợi ý nào không?
wgetkhông nên vượt qua các máy chủ theo mặc định và bạn cần tùy chọn -H/ --span-hostsđể vượt qua các máy chủ khi thực hiện một wget đệ quy. "www.website.com" là một máy chủ hoàn toàn khác với "www.website.de".
-Hluôn được yêu cầu lặp lại bên ngoài máy chủ ban đầu. Có -D www.website.comgiúp được không?