Google đã thu thập dữ liệu 403 trang của tôi như thế nào?

Tôi đã có một vài tập tin riêng tư trong một thư mục trong thư mục trường học của tôi. Bạn có thể thấy rằng các tệp tồn tại bằng cách truy cập myschool.edu/myusername/myfolder, nhưng cố gắng truy cập các tệp qua myschool.edu/myusername/myfolder/myfile.html trả về lỗi 403.

Nhưng Google bằng cách nào đó đã xoay sở để lấy nội dung của các tệp riêng tư đó và lưu trữ chúng trong bộ đệm của nó! Sao có thể như thế được? [Tôi đã xóa các tệp đó, vì vậy tôi chỉ tò mò về cách Google quản lý để làm điều này.]

web-crawlers security googlebot

— trọng lực
nguồn

Điều này thuộc về Quản trị viên web

— RobertPitt

Lý do có thể xảy ra nhất là các trang sẽ không trả về tiêu đề 403.

Bạn có thể kiểm tra xem bằng cách sử dụng Thanh công cụ dành cho nhà phát triển web trong Firefox hoặc Chrome. Công cụ này nằm trong "Thông tin" -> "Xem tiêu đề phản hồi".

Ngoài ra, cách tôi tạo các trang lỗi của mình là:

Tôi tạo một số trang lỗi giả. Hãy nói 403.php .
Tôi tạo một trang lỗi thực tế. Ví dụ lỗi403.php .
Trên trang lỗi giả, tôi đặt đoạn mã sau: <?php header("Location: /error403.php",TRUE,301); ?>
Trong .htaccess của tôi, tôi đặt như sau:

Options -Indexes

ErrorDocument 403 /403.php

Điều này thêm tất cả các chuyển hướng theo một cách thích hợp và làm cho tôi chắc chắn rằng tôi đang lấy một ít nước trái cây từ các trang lỗi của mình.

Điều này thực sự có thể được mở rộng một cách cực kỳ thú vị nếu trang web của bạn có công cụ tìm kiếm sử dụng các yêu cầu GET.

— Vergil Penkov
nguồn