Robots.txt: tôi có cần không cho phép một trang không được liên kết ở bất cứ đâu không?


12

Có một số trang trên trang web của tôi mà tôi muốn người dùng chỉ có thể truy cập nếu tôi cung cấp cho anh ấy / cô ấy URL.

Nếu tôi không cho phép các trang đơn lẻ vào robots.txt, bất kỳ ai cũng sẽ nhìn thấy chúng.

Câu hỏi của tôi là: nếu tôi không liên kết chúng từ bất cứ đâu, hoặc ít nhất là từ bất kỳ trang nào được lập chỉ mục, liệu chúng có còn được các trình thu thập thông tin tiếp cận theo cách nào đó không?

Câu trả lời:


11

Bạn hoàn toàn không muốn trang xuất hiện trong SERPs ...

Không cho phép trong tệp robots.txt. Thay vào đó, hãy thêm thẻ meta noindex (hoặc tiêu đề HTTP X-Robots-Tag) vào các trang của bạn.

Như j0k gợi ý, các trang của bạn có thể được tìm thấy bằng cách nào đó. Thống kê báo cáo, danh sách thư mục, v.v ...

Không cho phép robot.txt ngăn trang được thu thập thông tin, nhưng vẫn có thể được lập chỉ mục và có thể xuất hiện dưới dạng liên kết chỉ URL trong SERPs. Cái gì đó như:

URL chỉ liên kết trong Google SERPs

Thẻ meta noindex ngăn không cho trang xuất hiện trong SERPs - nhưng Google phải có thể thu thập dữ liệu trang để xem thẻ meta noindex - vì vậy nó không thể bị vô hiệu hóa trong robot.txt!

Nếu có bất cứ điều gì trên trang không được công khai thì các trang phải đứng sau một số loại xác thực.


Một điều cần lưu ý là nếu đây thực sự là một điều gì đó bí mật, thì việc "ẩn" nó bằng một URL là một thực tiễn tồi tệ bất kể phương pháp mà bạn chọn. Sử dụng xác thực thích hợp là thực sự quan trọng trong trường hợp như vậy.
John Mueller

1
Ngoài ra, các nút phương tiện truyền thông xã hội (Thích / Chia sẻ / + 1 / dấu trang khác nhau) cũng tìm nạp nội dung và có thể hiển thị URL, tiêu đề và đoạn trích theo cách công khai, ngay cả khi URL có noindex trên đó (hoặc không được robot cho phép .txt). Cách duy nhất để ngăn chặn điều đó là sử dụng xác thực.
John Mueller

2

Vâng, tôi nghĩ rằng bạn có trình thu thập thông tin tốt đọc robot.txt và làm theo chỉ thị. Và một số khác không tuân theo chỉ thị.

Và làm thế nào để bạn có kế hoạch để cung cấp url này? Bằng email, sử dụng Facebook hay Twitter? Tất cả các dịch vụ này thu thập thông tin bạn gửi. Gmail phân tích email bạn nhận được để cung cấp quảng cáo. Vì vậy, url của bạn sẽ được thu thập thông tin bằng cách nào đó.

Một số người sử dụng Thanh công cụ Google (hoặc bất kỳ thanh công cụ nào khác từ công cụ tìm kiếm). Có một tùy chọn (được kiểm tra theo mặc định nếu tôi nhớ rõ) cho phép thanh công cụ gửi tất cả các url bạn truy cập tới Google. Đây là một cách khác để Google xem web ẩn. Vì vậy, ngay cả khi bạn nói với người đó không chia sẻ url, anh ấy / cô ấy sẽ (nhờ thanh công cụ).

Tôi nghĩ rằng chúng ta có thể tìm thấy nhiều khả năng khác.

Vì vậy, bạn có thể thêm nó vào robot.txt nhưng cũng cung cấp thêm meta như noindex, nofollow, v.v.

biên tập:

Đề xuất của w3d về robot.txt có vẻ tốt với tôi. Vì vậy, đừng thêm nó vào robot.txt và cung cấp thẻ meta propre.


Tôi đang liên kết chúng thông qua email. Vâng, tôi đã lên kế hoạch để cung cấp meta thích hợp. Vậy đề xuất của bạn là thêm chúng vào robot hay không? Cảm ơn
martjno

Tôi khuyên bạn nên thêm nó vào robot.txt. Nhưng đề nghị của w3d đã thay đổi suy nghĩ của tôi. Đừng thêm nó nhưng cung cấp thẻ meta thích hợp.
j0k

0

Ngoài các ý kiến ​​trên, tôi cũng khen ngợi xác thực HTACCESS là tối thiểu - theo cách đó bạn có thể cung cấp cho cá nhân một kết hợp tên người dùng / mật khẩu trong suốt thời gian họ được phép xem (các) trang

Nếu có bất cứ điều gì có vấn đề về quyền riêng tư thì bạn cần xem xét một kịch bản kiểm soát đăng nhập thích hợp.

Một trang không được bảo vệ (cho dù bạn nghĩ nó có thể bị che khuất đến mức nào) sẽ khiến nó trở nên hoang dã.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.