Tôi đã nhận thấy rằng Google Webmaster Tools đang báo cáo rất nhiều tài nguyên bị chặn trong trang web của tôi. Ngay bây giờ tất cả "tài nguyên bị chặn" là .css, .js và hình ảnh (.jpg, .png) mà tôi phục vụ từ Cloudfront CDN.
Tôi đã dành rất nhiều thời gian để thử nghiệm và cố gắng tìm hiểu tại sao google không thu thập dữ liệu các tệp này và báo cáo trạng thái "khối tài nguyên".
Hiện tại tôi phục vụ các tệp này từ một số tên máy chủ như: cdn1.example.com, cdn2.example.com, Ném
cdn1, cdn2 và các loại khác là CNAME cho tên phân phối trên nền tảng đám mây.
Kiểm tra: Tôi đã thử sử dụng trực tiếp bản phân phối trên nền tảng đám mây (không có CNAME) nhưng sự cố vẫn còn.
Hiện tại tệp robots.txt của tôi trông như thế này:
# Google AdSense
User-agent: Mediapartners-Google
Disallow:
#Google images
User-agent: Googlebot-Image
Disallow: /
User-agent: *
Disallow: /homepage
Disallow: /index.php*
Disallow: /uncategorized*
Disallow: /tag/*
Disallow: *feed
Disallow: */page/*
Disallow: *author*
Disallow: *archive*
Disallow: */category*
Disallow: *tag=*
Disallow: /test*
Allow: /
Và ví dụ về các tệp bị chặn trong một trang ví dụ:
cdn1.example.com/wp-content/plugins/wp-forecast/wp-forecast-default.css
cdn9.example.com/wp-content/plugins/bwp-minify/min/?f=wp-content/theme/magazine/css/font-awemme.min.css,wp-content/theme/magazine/css/responsive .css
cdn5.example.com/wp-content/theme/magazine/images/nobg.png
cdn6.example.com/wp-content/plugins/floating-social-bar/images/fsb-sprite.png
cdn5.example.com/wp-content/uploads/2013/11/Design-Hotel-3-80x80.jpg
cdn5.example.com/wp-content/uploads/2013/11/Marta-Hotel-7-270x225.jpg
Tôi thậm chí đã cố gắng cho phép mọi thứ trong robot.txt nhưng tôi luôn có kết quả tương tự.
Tôi cũng đã xem xét kỹ các cài đặt CloudFront trong Amazon và không thấy gì có thể liên quan (Tôi không sử dụng và không bao giờ sử dụng tùy chọn: "Hạn chế quyền truy cập của người xem (Sử dụng URL đã ký hoặc Cookie đã ký)".
Ngay bây giờ tôi đã dành rất nhiều thời gian để xem xét điều này và không có thêm ý tưởng.
Ai đó có thể nghĩ ra lý do tại sao Googlebot sẽ bị chặn thu thập dữ liệu các tệp được lưu trữ trong Amazon CloudFront không?
*
ở cuối "tiền tố" URL. /test*
cũng giống như /test
.