Tại sao Google tải xuống nhị phân từ trang web của tôi và sử dụng băng thông?

Kể từ khoảng giữa tháng 8 năm 2014, một số máy chủ của Google đã tải xuống tất cả các tệp nhị phân lớn (rất) trên trang web của tôi, khoảng một lần một tuần. Tất cả các IP hiển thị thuộc sở hữu của Google và trông như thế này: google-proxy-66-249-88-199.google.com. Đây là những yêu cầu NHẬN và chúng ảnh hưởng lớn đến lưu lượng máy chủ của tôi.

Trước đó, tôi không thấy bất kỳ lưu lượng truy cập nào từ các IP proxy Google này, vì vậy đây có vẻ là một điều tương đối mới. Tôi thấy tất cả các loại lưu lượng truy cập từ các IP Google khác, tất cả chỉ yêu cầu googlebot và HEAD.

Tôi sẽ không lo lắng về điều này ngoại trừ tất cả các tệp này đang được Google tải xuống mỗi tuần hoặc lâu hơn. Băng thông được sử dụng đang bắt đầu nhận được quá mức.

Tôi đã suy đoán rằng vì nhiều tệp trong số này là tệp thực thi của Windows, có lẽ Google đang tải xuống chúng để thực hiện quét phần mềm độc hại. Ngay cả khi đó là sự thật, điều đó có thực sự cần phải xảy ra mỗi tuần không?

Ví dụ lưu lượng truy cập từ IP proxy của Google vào tháng 11 cho đến nay:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

Cập nhật # 1: Tôi quên đề cập rằng các tệp được đề cập đã có trong tệp robot.txt của trang web. Để làm cho cấu hình robot.txt hoạt động chính xác, tôi cũng đã sử dụng trình kiểm tra robot.txt trong Công cụ quản trị trang web của Google, cho thấy các tệp chắc chắn bị chặn đối với tất cả các bot của Google, ngoại trừ: Adsbot-Google. Tôi cũng không chắc đó là gì. VÀ tôi đã tìm kiếm Google cho một số tệp và chúng KHÔNG xuất hiện trong kết quả tìm kiếm.

Cập nhật # 2: Ví dụ: trong khoảng từ 5:12 sáng đến 5:18 sáng PST ngày 17 tháng 11, khoảng nửa tá IP (tất cả google-proxy) đã thực hiện GET trên tất cả các tệp nhị phân trong câu hỏi, tổng cộng 27. Vào ngày 4 tháng 11, từ 2:09 chiều đến 2:15 chiều PST, những IP tương tự về cơ bản đã làm điều tương tự.

Cập nhật # 3: Tại thời điểm này, có vẻ như rõ ràng rằng mặc dù đây là các IP Google hợp lệ, chúng là một phần của dịch vụ proxy của Google và không phải là một phần của hệ thống thu thập dữ liệu web của Google. Vì đây là các địa chỉ proxy, nên không có cách nào để xác định các yêu cầu GET thực sự bắt nguồn từ đâu, hoặc liệu chúng đến từ một nơi hay nhiều nơi. Dựa trên tính chất lẻ tẻ của các GET, có vẻ như không có gì bất chính đang xảy ra; có thể chỉ là ai đó quyết định tải xuống tất cả các tệp nhị phân trong khi sử dụng dịch vụ proxy của Google. Thật không may, dịch vụ đó dường như hoàn toàn không có giấy tờ, điều này không giúp ích gì. Từ quan điểm của quản trị viên trang web, proxy khá khó chịu. Tôi không muốn chặn chúng, bởi vì chúng có những mục đích sử dụng hợp pháp. Nhưng chúng cũng có thể bị lạm dụng.

google proxy bandwidth

— khởi động13
nguồn

Câu hỏi hay. Tôi đã bình chọn nó! Bạn chắc chắn sẽ muốn chặn chúng bằng robot.txt. Tại sao Google tải xuống thực thi là ngoài tôi. Bạn lý thuyết có vẻ như là một người tốt, nhưng bằng cách nào đó, vì tần số tôi không chắc chắn. Có vẻ khá lạ. Đây có vẻ là địa chỉ IP Googlebot hợp lệ, mặc dù tôi không có google-proxy-66-102-6-104.google.com trong danh sách của mình.

— Closnoc

Tôi quên đề cập rằng các tệp trong câu hỏi đã có trong tệp robots.txt của trang web. Xem Cập nhật # 1 ở trên.

— boot13

Bạn làm tôi bối rối. Tôi có một nhà thầu dự kiến bất cứ lúc nào vì vậy tôi sẽ phải suy nghĩ về điều này. Google đã làm những điều buồn cười với việc phân bổ tên miền và địa chỉ IP của họ và đã có sự trùng lặp với các dịch vụ khác nhau của Google bao gồm lưu trữ và các dịch vụ khác nơi bot của mọi người có thể xuất hiện trên không gian địa chỉ IP của Google, tuy nhiên, tôi chưa thấy họ sử dụng địa chỉ IP của Googlebot không gian. Tôi mong muốn Google sẽ phân bổ không gian trống cho các quy trình tìm kiếm khác nhau mà không có hoặc có ít sự chồng chéo để các hệ thống bảo mật có thể tin tưởng chính xác các địa chỉ IP này.

— Closnoc

Tôi đã thực hiện một số nghiên cứu cho câu hỏi này và tìm thấy một số điều thú vị, chẳng hạn như:

1. Có phải là một trình thu thập thông tin giả? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

Kết luận từ người dùng:

Những 'trình thu thập thông tin' này không phải là trình thu thập thông tin mà là một phần của bản xem trước trang web trực tiếp được sử dụng trong công cụ tìm kiếm Google.

Tôi đã thử điều này, để hiển thị một trong các trang web của tôi trong bản xem trước và vâng, có nó, đã nhận được một tin nhắn bị chặn.

Nếu bạn muốn người dùng có thể xem bản xem trước của trang web của mình, bạn phải chấp nhận những 'trình thu thập thông tin' này.

Giống như những người khác đã nói: "tên miền gốc của URL đó là google.com và không thể giả mạo dễ dàng".

Kết luận: Bạn có thể tin tưởng các bot hoặc trình thu thập thông tin này và nó được sử dụng để hiển thị bản xem trước trong tìm kiếm của google.

Chúng tôi biết bản xem trước trực tiếp không tải xuống các tệp của bạn, vì vậy hãy chuyển sang câu hỏi 2.

2. Đây có phải là một phần của dịch vụ Google không? -> Google proxy này có phải là trình thu thập thông tin giả mạo: google-proxy-66-249-81-131.google.com không?

Phần kết luận:

Tôi nghĩ rằng, một số người đang sử dụng các dịch vụ của Google (như Google dịch, Google mobile, v.v.) để truy cập (bị chặn) các trang web (trong trường học, v.v.) mà còn cho các cuộc tấn công DOS và hoạt động tương tự.

Tôi đoán về điều này là giống như ở trên. Ai đó đang cố gắng sử dụng dịch vụ của Google để truy cập các tệp của bạn, chẳng hạn như người dịch.

Nếu, như bạn nói, các tệp đã bị chặn bởi tệp robots.txt, đây chỉ có thể là một yêu cầu thủ công.

EDIT: Để giải quyết rộng rãi OP Comment:

Các trình thu thập thông tin có thể bỏ qua các tệp robots.txt không? Đúng. Đây là một danh sách tôi không nghĩ Google làm điều đó, có nghĩa là nó có thể là các bot khác sử dụng proxy của Google.

Nó có thể là một bot xấu? Có, và tôi khuyên bạn nên:

.htaccess cấm:

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

Mã này có thể cấm IP hoặc tác nhân người dùng.

Hoặc sử dụng Bẫy Nhện, đặc trưng ở đây

Tôi giữ quan điểm của tôi rằng đây là một yêu cầu thủ công.

— nữ tu sĩ
nguồn

Tôi cũng thấy những câu trả lời đó, nhưng dường như chúng không giải quyết được vấn đề cụ thể của tôi. Bạn có thể đúng rằng Google Proxy đang bị sử dụng sai cách nào đó, trong trường hợp đó rất có thể tôi sẽ chặn hoàn toàn, đó là một sự khập khiễng. Sự hiểu biết của tôi về robot.txt là phần mềm trình thu thập thông tin có thể chọn bỏ qua nó. Các bot thân thiện được cho là để tôn vinh nó, và hầu hết đều làm như vậy, nhưng proxy thì khác (tôi đoán vậy).

— boot13

@ boot13 Hãy cẩn thận. Đây là những địa chỉ IP Googlebot hợp lệ. Vì vậy, nếu bạn chặn nó, chỉ chặn nó cho các tệp này. Giả sử rằng bạn sử dụng Apache, bạn sẽ có thể làm điều này với .htaccess. Nhưng điều đó có thể gây ra các vấn đề khác, vì vậy hãy đảm bảo bạn chú ý đến Công cụ quản trị trang web của Google cho các tin nhắn.

— Closnoc

@ boot13 Tôi đã cập nhật câu trả lời của mình. Bạn có thể kiểm tra xem các truy cập được thực hiện vào cùng ngày / giờ hay là ngẫu nhiên?

— nunorbatista

@nunorbatista: họ có vẻ ngẫu nhiên. Tôi đã cập nhật câu hỏi của tôi với một số lần.

— boot13

@nunorbatista: xem Cập nhật # 3 ở trên. Đó không phải là Googlebot hay bất kỳ trình thu thập thông tin nào khác, đó là dịch vụ proxy của Google. Nó không liên quan đến bản xem trước trang web trực tiếp của Google. Có vẻ như một hoặc nhiều người vừa tải xuống các tệp nhị phân thông qua Google Proxy, có lẽ để khắc phục một khối hoặc hạn chế cục bộ. Đề xuất bẫy Spider không có khả năng giúp đỡ vì lưu lượng truy cập rõ ràng không phải là bot. Tôi muốn chặn IP Google Proxy truy cập vào thư mục chứa các tệp nhị phân; Tôi sẽ thử sử dụng mã htaccess, nhưng tất nhiên trình tải xuống luôn có thể chuyển sang proxy khác, vì vậy nó có thể là vô nghĩa.

— boot13