Google đã thu thập dữ liệu 403 trang của tôi như thế nào?


10

Tôi đã có một vài tập tin riêng tư trong một thư mục trong thư mục trường học của tôi. Bạn có thể thấy rằng các tệp tồn tại bằng cách truy cập myschool.edu/myusername/myfolder, nhưng cố gắng truy cập các tệp qua myschool.edu/myusername/myfolder/myfile.html trả về lỗi 403.

Nhưng Google bằng cách nào đó đã xoay sở để lấy nội dung của các tệp riêng tư đó và lưu trữ chúng trong bộ đệm của nó! Sao có thể như thế được? [Tôi đã xóa các tệp đó, vì vậy tôi chỉ tò mò về cách Google quản lý để làm điều này.]


2
Điều này thuộc về Quản trị viên web
RobertPitt

Câu trả lời:


5

Lý do có thể xảy ra nhất là các trang sẽ không trả về tiêu đề 403.

Bạn có thể kiểm tra xem bằng cách sử dụng Thanh công cụ dành cho nhà phát triển web trong Firefox hoặc Chrome. Công cụ này nằm trong "Thông tin" -> "Xem tiêu đề phản hồi".

Ngoài ra, cách tôi tạo các trang lỗi của mình là:

  1. Tôi tạo một số trang lỗi giả. Hãy nói 403.php .
  2. Tôi tạo một trang lỗi thực tế. Ví dụ lỗi403.php .
  3. Trên trang lỗi giả, tôi đặt đoạn mã sau: <?php header("Location: /error403.php",TRUE,301); ?>
  4. Trong .htaccess của tôi, tôi đặt như sau:

    Options -Indexes

    ErrorDocument 403 /403.php

Điều này thêm tất cả các chuyển hướng theo một cách thích hợp và làm cho tôi chắc chắn rằng tôi đang lấy một ít nước trái cây từ các trang lỗi của mình.

Điều này thực sự có thể được mở rộng một cách cực kỳ thú vị nếu trang web của bạn có công cụ tìm kiếm sử dụng các yêu cầu GET.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.