Không có công cụ tìm kiếm tuân thủ Giao thức loại trừ robot nào có thể thu thập bất kỳ URL nào không được phép trong tệp robots.txt, bất kể nó có thể được liệt kê ở đâu khác.
Tuy nhiên, Google không nhất thiết phải thu thập dữ liệu URL của bạn để lập chỉ mục chúng. Nếu họ tin rằng họ có đủ bằng chứng cho thấy thực sự có một trang tại URL đó (và một danh sách sơ đồ trang web rất có thể được tính là bằng chứng như vậy) thì họ có thể chỉ cần quyết định thêm URL vào chỉ mục của mình mà không có bất kỳ nội dung nào. Để trích dẫn các trang trợ giúp Công cụ quản trị trang web của Google :
"Mặc dù Google sẽ không thu thập dữ liệu hoặc lập chỉ mục nội dung của các trang bị chặn bởi tệp robots.txt, chúng tôi vẫn có thể lập chỉ mục các URL nếu chúng tôi tìm thấy chúng trên các trang khác trên web. Do đó, URL của trang và, có khả năng, khác thông tin có sẵn công khai như văn bản neo trong các liên kết đến trang web hoặc tiêu đề từ Dự án thư mục mở (www.dmoz.org), có thể xuất hiện trong kết quả tìm kiếm của Google. "
Các trang như vậy có thể bật lên dưới dạng kết quả tìm kiếm, ví dụ: đối với các từ được bao gồm trong chính URL hoặc cho các từ được sử dụng trong các liên kết trỏ đến trang.
Do đó, nếu cả hai bạn liệt kê một trang trong sơ đồ trang web và không cho phép trang đó trong tệp robots.txt, có khả năng Google sẽ lập chỉ mục URL của trang đó - nhưng không phải là nội dung của nó.