Robots.txt vs Sơ đồ trang web - Ai thắng trong Xung đột

8

Nếu tôi chặn thư mục / foo trong tệp robots.txt, nhưng sơ đồ trang web xml của tôi có chứa URL với / foo, các URL trong sơ đồ trang web có được Google và các công cụ tìm kiếm khác chọn không? Nói cách khác, sơ đồ trang web có phải là robot.txt không? Tôi nghĩ vậy, nhưng không chắc chắn.

robots.txt xml-sitemap

— Nathan
nguồn

12

Không có công cụ tìm kiếm tuân thủ Giao thức loại trừ robot nào có thể thu thập bất kỳ URL nào không được phép trong tệp robots.txt, bất kể nó có thể được liệt kê ở đâu khác.

Tuy nhiên, Google không nhất thiết phải thu thập dữ liệu URL của bạn để lập chỉ mục chúng. Nếu họ tin rằng họ có đủ bằng chứng cho thấy thực sự có một trang tại URL đó (và một danh sách sơ đồ trang web rất có thể được tính là bằng chứng như vậy) thì họ có thể chỉ cần quyết định thêm URL vào chỉ mục của mình mà không có bất kỳ nội dung nào. Để trích dẫn các trang trợ giúp Công cụ quản trị trang web của Google :

"Mặc dù Google sẽ không thu thập dữ liệu hoặc lập chỉ mục nội dung của các trang bị chặn bởi tệp robots.txt, chúng tôi vẫn có thể lập chỉ mục các URL nếu chúng tôi tìm thấy chúng trên các trang khác trên web. Do đó, URL của trang và, có khả năng, khác thông tin có sẵn công khai như văn bản neo trong các liên kết đến trang web hoặc tiêu đề từ Dự án thư mục mở (www.dmoz.org), có thể xuất hiện trong kết quả tìm kiếm của Google. "

Các trang như vậy có thể bật lên dưới dạng kết quả tìm kiếm, ví dụ: đối với các từ được bao gồm trong chính URL hoặc cho các từ được sử dụng trong các liên kết trỏ đến trang.

Do đó, nếu cả hai bạn liệt kê một trang trong sơ đồ trang web và không cho phép trang đó trong tệp robots.txt, có khả năng Google sẽ lập chỉ mục URL của trang đó - nhưng không phải là nội dung của nó.

— Ilmari Karonen
nguồn

Vì vậy, điều đó sẽ làm cho câu trả lời của bạn Có thay vì Không, phải không? :) Bởi vì nó chọn các URL mặc dù thư mục bị chặn trong tệp robots.txt và bạn dường như đồng ý với điều đó.

— Henrik Erlandsson

3

Robots.txt định nghĩa những bot phù hợp được phép hay không yêu cầu. Ngay cả khi một liên kết cụ thể có trong sơ đồ trang web, bot không được phép yêu cầu liên kết đó nếu robot.txt không cho phép.

Hãy nhớ rằng sơ đồ trang web là không cần thiết và ngay cả khi được cung cấp, trình thu thập thông tin có thể bỏ qua URL và thu thập dữ liệu không có ở đó. Nếu có thể thấy điều này trong Công cụ quản trị trang web của Google cho thấy rằng không phải tất cả các URL trong sơ đồ trang web đều được thu thập thông tin và nếu một số URL được rô bốt .

— Ý
nguồn

3

Câu trả lời của Itai là chính xác nên không có gì quan trọng để thêm vào điều đó nhưng để trả lời câu hỏi cụ thể của bạn ...

Sơ đồ trang web không thể vượt qua robot.txt, sơ đồ trang web không cung cấp hướng dẫn / chỉ thị cho trình thu thập thông tin trên trang web. Họ thậm chí không thể so sánh được. Nếu bạn đã hướng dẫn robot không truy cập / theo dõi /foothì bất kỳ bot nào tuân theo chỉ thị robot của bạn sẽ không truy cập vào thư mục đó bất kể đường dẫn nào chúng đi đến đó (sơ đồ trang web hoặc cách khác).

— zigojacko
nguồn

Erm ... Đây là những gì Google nói trong tài liệu của họ về cách họ xử lý thu thập thông tin. [perfectURL] trỏ đến tệp Sơ đồ trang web, Chỉ mục Sơ đồ trang web hoặc URL tương đương. URL không phải ở trên cùng một máy chủ với tệp robot.txt. Nhiều mục sơ đồ trang web có thể tồn tại. Là các bản ghi không phải thành viên nhóm, những bản ghi này không được gắn với bất kỳ tác nhân người dùng cụ thể nào và có thể được theo dõi bởi tất cả các trình thu thập thông tin, miễn là nó không được phép .

— zigojacko

3

Khi Google có thể xử lý đúng tệp tệp robots.txt, một URL được đề cập trong tệp Sơ đồ trang web sẽ không bao giờ thực hiện lệnh không được phép hợp lệ trong tệp robot.txt. Không được thu thập thông tin URL không được thu thập thông tin từ Googlebot.

— John Mueller

0

Trong quản trị trang web của Google: Nó hiển thị một lỗi trong sơ đồ trang web XML của bạn rằng "Bạn đã đặt một liên kết được ngăn chặn để Thu thập dữ liệu trong tệp robot.txt của bạn. Google thích tệp robot.txt hơn là Sơ đồ trang web.

— Asif Faridi
nguồn