(Ngoài câu trả lời của @ John.)
Có cách nào để bảo Google không lập chỉ mục trang web đó không?
Khá tò mò rằng trong khi chúng dường như đã nhân bản mọi thứ (bao gồm cả sơ đồ trang web XML của bạn * 1 ), chúng không nhân bản tệp robot.txt của bạn. Trên thực tế, robot.txt trên trang web đó chủ động chặn thu thập dữ liệu mọi thứ! Vì vậy, dường như không có gì để làm trong khía cạnh này. Thực hiện tìm kiếm trang web trên tên miền đó chỉ trả về tên miền trần và một thông báo cho biết rằng nó bị chặn bởi tệp robots.txt.
(Khá tò mò ý định của họ sẽ là gì khi làm điều này? Có lẽ bạn có thể cho rằng họ đã phạm sai lầm với robot.txt - và có lẽ là như vậy - nhưng điều này có vẻ giống như một ngoại lệ có chủ ý với tôi?)
Ngoài ra, trong khi sơ đồ trang XML của bạn được sao chép, chúng không cập nhật URL trong đó (như chúng đang làm trên các trang của trang chính), vì vậy chúng vẫn đang quay lại trang web của bạn.
* 1 Về (các) sơ đồ trang web XML. Trên trang web của bạn "sitemap.xml" thực sự là một chuyển hướng đến "sitemap_index.xml" và trang web nhân bản đã thực sự nhân bản chuyển hướng ... điều này chuyển hướng trở lại trang web của bạn! (Chắc chắn là một lỗi về phía họ.) "Sitemap_index.xml" chỉ là một chỉ mục, liên kết với 4 sơ đồ trang web khác. Nếu bất kỳ sơ đồ trang web thực tế nào được yêu cầu trực tiếp trên trang web nhân bản thì chúng được sao chép chính xác và các URL được cập nhật. Tuy nhiên, tôi đã có thể nói rằng những sơ đồ trang web này khó có thể được tìm thấy trên trang web nhân bản vì chuyển hướng ban đầu của "sitemap.xml". (?) Mặc dù nếu họ đã gửi "sitemap_index.xml" trực tiếp thì điều đó rõ ràng sẽ xoay quanh chuyển hướng.