Ngăn chặn sơ đồ trang web XML hiển thị trong kết quả tìm kiếm của Google


23

Làm cách nào để ngăn các tệp sơ đồ trang web XML của tôi hiển thị trong kết quả tìm kiếm của Google như kết quả của site:truy vấn tìm kiếm này:

sơ đồ trang web trong kết quả tìm kiếm

Tôi không hiểu tại sao Google lại chọn hiển thị tệp sơ đồ trang web trong kết quả tìm kiếm để bắt đầu. Những tập tin này không dành cho con người.

Google cần có khả năng thu thập dữ liệu để có thể xử lý nó, vì vậy tôi không thể không cho phép nó trong tệp robots.txt . Tôi chỉ không muốn họ đưa nó vào kết quả tìm kiếm sau khi xử lý nó.


1
Huh. Hấp dẫn. Suy nghĩ duy nhất tôi có là nếu bạn có một liên kết đến nó trên trang web của bạn, hoặc nó xuất hiện trong tệp sơ đồ trang web của bạn. Đồng thời, tôi không chắc chắn nếu bạn tham chiếu nó trong tệp robot.txt của mình nếu đó có thể là một yếu tố. Tôi sẽ không nghĩ như vậy, chỉ là một cái gì đó để xem xét. Tôi chỉ cung cấp sơ đồ trang web của mình thông qua Google WMT và chưa thấy vấn đề này - ít nhất là chưa. Tôi có thể hiểu không muốn sơ đồ trang web của bạn công khai. Tôi không muốn công khai của tôi. Quá nhiều tin tặc / người dọn dẹp ra khỏi đó.
Closnoc

3
Trên trang web cụ thể này, tôi đã /sitemap.xmlliệt kê trong tệp robots.txt và sau đó liên kết đến một tập hợp các sơ đồ trang web khác như /sitemap-123.xml/sitemap-124.xml. Tôi tạo lại sơ đồ trang web mỗi ngày và số lượng thay đổi hàng ngày. Một cái được lập chỉ mục là một cái khá cũ. Tôi không liên kết đến bất cứ nơi nào trên trang web của mình, nhưng có thể một số trang web khác có liên kết đến nó ở đâu đó.
Stephen Ostermiller

1
Nếu nó không được sử dụng, hãy đảm bảo rằng nó đã bị xóa, sau đó loại trừ nó trong tệp robot.txt của bạn và nó sẽ bị xóa khỏi SERPs khá nhanh. Điều kỳ lạ là, việc xóa URL trong Google WMT sẽ mất mãi mãi (vài tháng đối với tôi) trong khi robot.txt khá nhanh.
Closnoc

1
Bạn đã gửi sơ đồ trang web XML vào tài khoản GWMT của mình chưa?
Oleg

3
Các tập tin sơ đồ trang web vẫn tồn tại cho đến ngày hôm nay. Tôi đã xóa nó và bây giờ nó chuyển hướng đến /sitemap.xml tôi cho rằng sơ đồ trang web cụ thể này sẽ rơi ra khỏi chỉ mục. Tôi cũng muốn ngăn Google hiển thị chúng cho người dùng tìm kiếm trong tương lai.
Stephen Ostermiller

Câu trả lời:


18

Google lập chỉ mục sơ đồ trang web XML (giống như bất kỳ tệp XML nào). Nếu Google biết về một URL và nó trả về một phản hồi hợp lệ thì nó sẽ vượt qua các quy tắc bao gồm của Google và có thể được lập chỉ mục. Cá nhân, tôi chỉ gửi sơ đồ trang web thông qua GWT và bao gồm một Sitemap:tham chiếu trong tệp robots.txt và điều này chắc chắn là đủ để lập chỉ mục.

Phương pháp được đề xuất để ngăn các tệp này được Google lập chỉ mục là bao gồm X-Robots-Tagtiêu đề phản hồi HTTP khi phục vụ sơ đồ trang web XML. Ví dụ:

X-Robots-Tag: noindex

Giống như bao gồm thẻ META của robot trong các tệp HTML, X-Robots-Tagtiêu đề có thể được sử dụng cho bất kỳ loại tệp nào.

Tham khảo: Tài liệu này (từ tháng 11 năm 2008!) Dường như trích dẫn John Mueller (Google) của chúng tôi liên quan đến việc sử dụng X-Robots-Tagphản hồi khi xử lý sơ đồ trang web XML.
Có, Google sẽ lập chỉ mục và xếp hạng tệp sơ đồ trang web XML của bạn

Để biết thêm thông tin, hãy xem hướng dẫn dành cho nhà phát triển của Google: Thông
số kỹ thuật tiêu đề HTTP của thẻ Rô bốt và thẻ X-Robots-Tag


Tôi sẽ viết X-Robots-Tag: noindexmã tiêu đề ở đâu? Bên trong sitemap.xmlhay robots.txt?
xameeramir

1
@student Đó là một tiêu đề phản hồi HTTP vì vậy nó phải được đặt trước khi phục vụ các tệp đó (như một phần của tiêu đề phản hồi HTTP) - không thể đặt "bên trong" chúng. Tùy thuộc vào cách bạn đang phục vụ các tệp này, bạn có thể đặt mã này trong mã phía máy chủ của mình (ví dụ: trong PHP header('X-Robots-Tag: noindex',true)) hoặc, nếu bạn đang sử dụng Apache thì trong tệp .htaccess hoặc cấu hình máy chủ của bạn. Xem câu trả lời của Stephen cho ví dụ mã. Đồng thời xem hướng dẫn dành cho nhà phát triển của Google được liên kết ở trên.
MrWhite

8

Câu trả lời của MrWhite về việc sử dụng X-Robots-Tag dường như là cách chính xác để làm điều này.

Đây là mã có thể được sử dụng trong các tệp cấu hình .htaccess hoặc Apache để làm như vậy. (Tham khảo: WebmasterWorld - Sơ đồ trang web hiển thị trong SERP - Làm cách nào để ngăn chặn điều này? )

<Files ~ "sitemap.*\.xml(\.gz)?$">
  Header append X-Robots-Tag "noindex"
</Files>

Theo nginx , cấu hình sẽ như sau. (Tham khảo: Ví dụ về Yo-X-Robots-Tag )

location ~* sitemap.*\.xml(\.gz)?$ {
    add_header X-Robots-Tag "noindex";
}

2

Tại sao nó quan trọng?

Nếu bạn thực sự có thể tìm thấy sơ đồ trang web của mình trong SERP thì bạn có vấn đề lớn hơn.

Thay vào đó, tôi sẽ tập trung hơn vào việc đưa các trang lên với nội dung hữu ích. Bằng cách đó, bạn sẽ có một thời gian rất khó khăn thậm chí tìm thấy bạn sơ đồ trang web. Không phải là bạn sẽ quan tâm tại thời điểm đó.

PS

Khá nhiều người giữ sơ đồ trang web ở cùng một nơi. Vì vậy, nếu ai đó muốn tìm nơi bạn giữ nó, họ sẽ :)


4
Tôi sử dụng Google để tìm kiếm trang web và tôi tình cờ thấy một sơ đồ trang web khi sử dụng nó. Sẽ rất khó hiểu cho người dùng của tôi nếu họ nhấp vào nó.
Stephen Ostermiller

Bạn nghĩ có bao nhiêu người dùng của bạn sử dụng Google để tìm kiếm trang web?
dasickle

3
Tất cả người dùng nhập cụm từ tìm kiếm vào hộp tìm kiếm ở đầu trang của tôi.
Stephen Ostermiller

Trong trường hợp đó. Bạn đã cân nhắc sử dụng một cái gì đó như swiftype.com cho tìm kiếm trang web của bạn? Có một đầu của những người khác bạn có thể sử dụng. Bạn có thể đặt hàng lại, loại bỏ và thêm kết quả. Bạn cũng có được số liệu thống kê tuyệt vời và vv
dasickle

-6

đặt phần sau vào tệp robots.txt

User-agent: *
Disallow: /sitemap.xml

thay vì gửi sơ đồ trang web của bạn thông qua các công cụ quản trị trang web google.


1
Bạn có thể vui lòng làm rõ logic của bạn - câu đầu tiên của bạn có vẻ mâu thuẫn với câu cuối của bạn không?
MrWhite

5
Google vẫn sẽ thu thập dữ liệu sơ đồ trang web bị chặn trong tệp robots.txt chứ? Bạn có một tài liệu tham khảo để hỗ trợ khẳng định?
Stephen Ostermiller

4
Nếu bạn không cho phép sitemap.xml, tôi khá chắc chắn rằng nó sẽ không còn được thu thập thông tin nữa. Không phải cái gì bạn muốn xảy ra!
Tối đa

2
Google sẽ không thu thập bất kỳ tài liệu nào với robot.txt không được phép. Không thông thường, dù sao ... bao gồm bản đồ trang web.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.