Googlebot tìm các URL chỉ hiển thị cho người dùng được xác thực như thế nào?


12

Đây là một trong những khách hàng của tôi, thực hiện một số hành động sau khi đăng nhập vào tài khoản của anh ấy. Mã thông báo duy nhất chỉ đơn giản là id người dùng được mã hóa + dấu thời gian.

94.254.xxx.xxx - - [02/07/2011: 22: 25: 46 +0200] "GET / some-action / unique-token-123abc HTTP / 1.1" 200 410 "-" "Mozilla / 5.0 (tương thích; MSIE 9.0; Windows NT 6.1; Cây đinh ba / 5.0) "

Bây giờ, Googlebot bằng cách nào đó đã tìm ra liên kết độc đáo này và cố gắng truy cập cùng một URL chính xác một tuần sau đó.

66.249.71.179 - - [10 tháng 7 năm 2011: 09: 56: 01 +0200] "NHẬN / một số hành động / duy nhất-token-123abc HTTP / 1.1" 302 - "-" "Mozilla / 5.0 (tương thích; Googlebot / 2.1; + http: //www.google.com/bot.html) "

(mã trạng thái là 302 vì mã thông báo đã hết hạn)


Hãy để tôi nhấn mạnh rằng đây là một URL duy nhất có thể nhìn thấy chính xác một lần, chỉ trong 2 giây, trước khi người dùng nhấp vào nó và tiến hành truy cập trang đó. Nó đã không được gửi trong một email hoặc xuất bản bất cứ nơi nào công khai.

Điều gì đang xảy ra ở đây, làm sao Google có thể tìm thấy URL duy nhất này?

Câu trả lời:


6

Thật khó để nói chắc chắn nhưng đây là những tình huống có thể xảy ra:

  • Người dùng đã cài đặt thanh công cụ hoặc tiện ích mở rộng trình duyệt báo cáo các URL họ truy cập tới Google.

  • Ai đó đã liên kết với URL đó và Google đã tìm thấy nó bằng cách thu thập dữ liệu trang có liên kết đó trên đó.


Nếu bạn đang nói về Thanh công cụ Google chỉ gửi lại URL cho Google trong trường hợp bạn bật tính năng "PageRank", nhưng chúng tôi không bao giờ sử dụng dữ liệu đó để khám phá các URL mới. Nếu về một số thanh công cụ khác được phát hành bởi chúng tôi, xin vui lòng cho tôi biết.
methode

5

Tôi mới nhận ra rằng người dùng phải tìm thấy một liên kết ngoài trên trang được xác thực này và sau đó rò rỉ URL riêng tư như Refererkhi nhấp qua một số trang web khác. Đây là lời giải thích duy nhất có thể, và nên thực sự rõ ràng ngay từ đầu.

Sau khi bị rò rỉ, URL riêng có thể đã được hiển thị với Google theo một số cách, ví dụ: trang đích có thể đã công khai nhật ký truy cập của họ. Lưu ý: không có liên kết ngoài nào đang sử dụng Google Analytics nên điều này không cho thấy Googlebot đang sử dụng URL giới thiệu từ Analytics.

Bài học rút ra: không bao giờ đặt dữ liệu nhạy cảm vào URL trừ khi bạn sử dụng https, trong trường hợp đó trình duyệt sẽ bị bỏ Referertrống.


1
Bạn đã đúng: đưa dữ liệu nhạy cảm vào URL có thể nguy hiểm. Bất cứ khi nào bạn có thể, bạn nên chuyển ID người dùng duy nhất giữa các trang bằng các yêu cầu POST (không gửi các biến như một phần của URL, như các yêu cầu GET) hoặc với các biến cookie / phiên.
Nick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.