Để ngăn tệp PDF của bạn (hoặc bất kỳ tệp không phải HTML nào) được liệt kê trong kết quả tìm kiếm, cách duy nhất là sử dụng X-Robots-Tag
tiêu đề phản hồi HTTP , ví dụ:
X-Robots-Tag: noindex
Bạn có thể làm điều này bằng cách thêm đoạn mã sau vào tệp .htaccess gốc hoặc tệp httpd.conf của trang web:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
Lưu ý rằng để các công việc trên hoạt động, bạn phải có thể sửa đổi các tiêu đề HTTP của tệp đang đề cập. Do đó, bạn có thể không làm được điều này, ví dụ, trên Trang GitHub .
Cũng lưu ý rằng robots.txt không không ngăn không cho trang của bạn không bị liệt kê trong kết quả tìm kiếm.
Những gì nó làm là ngăn bot thu thập dữ liệu trang của bạn, nhưng nếu bên thứ ba liên kết đến tệp PDF của bạn từ trang web của họ , trang của bạn sẽ vẫn được liệt kê.
Nếu bạn ngăn bot thu thập dữ liệu trang của bạn bằng robot.txt , nó sẽ không có cơ hội thấy X-Robots-Tag: noindex
thẻ phản hồi. Do đó, không bao giờ không cho phép một trang trong robot.txt nếu bạn sử dụng X-Robots-Tag
tiêu đề. Thông tin thêm có thể được tìm thấy trên Google Developers: Robots Meta Tag .