Tôi muốn kiểm tra xem trang web của tôi sẽ hoạt động như thế nào khi được xem xét. Tuy nhiên, tôi muốn loại trừ tất cả các URL có chứa từ "trang". Tôi đã thử:
$ wget -r -R "*page*" --spider --no-check-certificate -w 1 http://mysite.com/
Các -R
lá cờ có nghĩa vụ phải từ chối mẫu URL có chứa từ "trang". Ngoại trừ việc nó dường như không hoạt động:
Spider mode enabled. Check if remote file exists.
--2014-06-10 12:34:56-- http://mysite.com/?sort=post&page=87729
Reusing existing connection to [mysite.com]:80.
HTTP request sent, awaiting response... 200 OK
Làm cách nào để loại trừ spidering của URL đó?