Tôi muốn thu thập các liên kết trong www.website.com/XYZ và chỉ tải xuống các liên kết nằm dưới www.website.com/ABC.
Tôi đang sử dụng lệnh wget sau để nhận các tệp tôi muốn:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Điều này hoạt động hoàn hảo khi tôi sử dụng wget 1.13.4. Nhưng vấn đề là tôi phải sử dụng lệnh này trên một máy chủ có w11 1.11 và khi tôi sử dụng cùng một lệnh, nó sẽ tải xuống các tên miền bổ sung như:
www.website.de
www.website.it
...
Làm thế nào tôi có thể tránh vấn đề này? Tôi đã thử sử dụng
--exclude domains=www.website.de,www.website.it
Tuy nhiên, nó tiếp tục tải xuống các tên miền.
Cũng lưu ý rằng tôi không thể sử dụng --no-parent
vì các tệp tôi muốn ở cấp cao hơn (tôi muốn các tệp trong website.com/ABC bằng cách thu thập các liên kết trong website.com/XYZ).
Có gợi ý nào không?
wget
không nên vượt qua các máy chủ theo mặc định và bạn cần tùy chọn -H
/ --span-hosts
để vượt qua các máy chủ khi thực hiện một wget đệ quy. "www.website.com" là một máy chủ hoàn toàn khác với "www.website.de".
-H
luôn được yêu cầu lặp lại bên ngoài máy chủ ban đầu. Có -D www.website.com
giúp được không?