Kể từ khoảng giữa tháng 8 năm 2014, một số máy chủ của Google đã tải xuống tất cả các tệp nhị phân lớn (rất) trên trang web của tôi, khoảng một lần một tuần. Tất cả các IP hiển thị thuộc sở hữu của Google và trông như thế này: google-proxy-66-249-88-199.google.com. Đây là những yêu cầu NHẬN và chúng ảnh hưởng lớn đến lưu lượng máy chủ của tôi.
Trước đó, tôi không thấy bất kỳ lưu lượng truy cập nào từ các IP proxy Google này, vì vậy đây có vẻ là một điều tương đối mới. Tôi thấy tất cả các loại lưu lượng truy cập từ các IP Google khác, tất cả chỉ yêu cầu googlebot và HEAD.
Tôi sẽ không lo lắng về điều này ngoại trừ tất cả các tệp này đang được Google tải xuống mỗi tuần hoặc lâu hơn. Băng thông được sử dụng đang bắt đầu nhận được quá mức.
Tôi đã suy đoán rằng vì nhiều tệp trong số này là tệp thực thi của Windows, có lẽ Google đang tải xuống chúng để thực hiện quét phần mềm độc hại. Ngay cả khi đó là sự thật, điều đó có thực sự cần phải xảy ra mỗi tuần không?
Ví dụ lưu lượng truy cập từ IP proxy của Google vào tháng 11 cho đến nay:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Cập nhật # 1: Tôi quên đề cập rằng các tệp được đề cập đã có trong tệp robot.txt của trang web. Để làm cho cấu hình robot.txt hoạt động chính xác, tôi cũng đã sử dụng trình kiểm tra robot.txt trong Công cụ quản trị trang web của Google, cho thấy các tệp chắc chắn bị chặn đối với tất cả các bot của Google, ngoại trừ: Adsbot-Google. Tôi cũng không chắc đó là gì. VÀ tôi đã tìm kiếm Google cho một số tệp và chúng KHÔNG xuất hiện trong kết quả tìm kiếm.
Cập nhật # 2: Ví dụ: trong khoảng từ 5:12 sáng đến 5:18 sáng PST ngày 17 tháng 11, khoảng nửa tá IP (tất cả google-proxy) đã thực hiện GET trên tất cả các tệp nhị phân trong câu hỏi, tổng cộng 27. Vào ngày 4 tháng 11, từ 2:09 chiều đến 2:15 chiều PST, những IP tương tự về cơ bản đã làm điều tương tự.
Cập nhật # 3: Tại thời điểm này, có vẻ như rõ ràng rằng mặc dù đây là các IP Google hợp lệ, chúng là một phần của dịch vụ proxy của Google và không phải là một phần của hệ thống thu thập dữ liệu web của Google. Vì đây là các địa chỉ proxy, nên không có cách nào để xác định các yêu cầu GET thực sự bắt nguồn từ đâu, hoặc liệu chúng đến từ một nơi hay nhiều nơi. Dựa trên tính chất lẻ tẻ của các GET, có vẻ như không có gì bất chính đang xảy ra; có thể chỉ là ai đó quyết định tải xuống tất cả các tệp nhị phân trong khi sử dụng dịch vụ proxy của Google. Thật không may, dịch vụ đó dường như hoàn toàn không có giấy tờ, điều này không giúp ích gì. Từ quan điểm của quản trị viên trang web, proxy khá khó chịu. Tôi không muốn chặn chúng, bởi vì chúng có những mục đích sử dụng hợp pháp. Nhưng chúng cũng có thể bị lạm dụng.